CheckAI — Программный инструмент автоматизированного тестирования безопасности моделей машинного обучения
CheckAI — платформа для проверки устойчивости ML-моделей к атакам различного рода. Проект автоматизирует процессы тестирования для табличных, текстовых, визуальных и голосовых моделей, формирует отчеты и помогает встроить проверки безопасности в CI/CD процессы.
Большинство моделей перед внедрением оцениваются только по accuracy/F1 на обычных тестовых данных, но не проходят системную проверку на безопасность и уязвимость. CheckAI решает проблему проверки ML-моделей на устойчивость к adversarial-атакам, шуму, искажениям данных и деградации качества после атак, позволяя в автоматическом режиме запускать адверсариальные атаки на модели машинного обучения, оценивать падение качества и формировать отчеты с рекомендациями. Проект полезен для команд, внедряющих технологии машинного обучения в продуктовые среды и контролирующих риски в рамках процессов автоматизированного развертывания.
CheckAI помогает обнаружить проблему до внедрения модели, а не после инцидента. Это снижает риск ошибочных решений, финансовых потерь, репутационного ущерба и затрат на ручную проверку ML-моделей. Проверка устойчивости становится регулярным этапом приемки модели перед релизом. Компания готовит к внедрению модель компьютерного зрения, например, для видеоконтроля, промышленной безопасности или распознавания объектов. На стандартном тестовом наборе модель показывает высокое качество, поэтому выглядит готовой к запуску. CheckAI проверяет модель в условиях adversarial-искажений: добавляет патчи, шумы и другие изменения входных изображений, после чего сравнивает качество распознавания до и после атаки. Если метрики резко падают, команда получает отчет с примерами уязвимостей и понимает, что модель нельзя безопасно выпускать в продуктовую среду без доработки.
Данные
CheckAI работает с различными типами данных:
-
Табличные данные: CSV, признаки, классы, числовые и категориальные значения
-
Текстовые данные: тексты, метки классов, датасеты HuggingFace или CSV
-
Изображения: данные для задач classification и object detection
-
Аудио: speech-to-text сценарии, Whisper-модели, метрики WER/CER
Технология
Основной рабочий процесс следующий: пользователь задает модель, датасет и набор атак в конфигурации; платформа загружает модель и данные, запускает подходящие атаки, сравнивает исходные и атакованные результаты, считает метрики устойчивости и формирует отчет с оценкой уязвимости модели и рекомендациями по защите.
В основе CheckAI — модульная архитектура. Ключевые компоненты системы:
CLI-интерфейс для запуска проверок по конфигурационным файлам.
-
Модуль загрузки моделей и датасетов с реестром совместимости моделей, типов данных и атак
-
Интеграция с ART для tabular и computer vision атак
-
Интеграция с TextAttack для NLP-атак
-
Модули Whisper/speech атак для ASR-моделей
-
Metrics Engine для расчета устойчивости, падения качества и успешности атак
-
Defence Module для применения методов защиты ML-моделей
-
Report Generator для HTML/JSON/console-отчетов
-
LLM-модуль для генерации рекомендаций по результатам тестирования
-
CI/CD pipeline для автоматической проверки моделей и сборки образов (включая поддержку TeamCity)
Ценность
Снижение рисков: разностороннее тестирование устойчивости предотвращает внедрение уязвимых моделей в продуктовую среду.
Экономия времени: автоматическое тестирование заменяет ручные проверки, разгружая ML/DS и AppSec команды.
Единый стандарт отчетности: сравнимые метрики по разным атакам и модальностям, пригодные для аудита и принятия решений.
Прозрачность: понятные HTML/JSON-отчеты с метриками и рекомендациями прямо указывают на слабые места модели.
Расширение функционала: добавление новых атак, моделей или метрик не требует изменения кода.
Интеграция и внедрение
CheckAI легко встраивается в CI/CD-пайплайны компаний (поддерживается TeamCity) и применяется для тестирования моделей в продуктах InfoWatch. Модульный дизайн позволяет подключить платформу к существующей ML-инфраструктуре без существенных доработок.
Демонстрация
Подробно о программе в презентации https://disk.360.yandex.ru/i/qdCsmcqjurdI6w
Примеры работы:
Пример Scoring-системы и метрик по устойчивости модели
Пример атаки на модель YOLO
Команда проекта
Руководитель проекта
Руководитель направления
Эксперты и разработчики:
Студенты-разработчики: