Атаки на генеративные модели ИИ. Обзор угроз и меры защиты

изображение создано нейросетью
По мере стремительного внедрения генеративных моделей ИИ в корпоративные процессы растет и число попыток их компрометации — от инъекций промптов до отравления данных и кражи моделей. Команда ОБИТ рассказала IT-World о ключевых типах угроз для LLM и эффективных мерах защиты, способных сохранить устойчивость корпоративных ИИ-систем.
По мере того, как большие языковые модели (LLM) все глубже интегрируются в бизнес-процессы, системы принятия решений и ИТ-инфраструктуры российского бизнеса, вопросы их безопасности выходят на первый план. Злоумышленники все чаще стремятся манипулировать поведением моделей, извлекать конфиденциальную информацию или саботировать их работу.
По мере погружения в разработку корпоративных сервисов и чат-ботов на основе LLM, перед нашей командой ОБИТ встала задача детального анализа всех базовых возможных уязвимостей. Ниже я систематизирую обзор ключевых типов атак на генеративные модели, механизмов их реализации, возникающих рисков и стратегий защиты, применимых на практике.
Содержание:
1. Атаки с инъекцией промптов
Суть и механика
Инъекция промптов — одна из самых тривиальных, но в то же время часто успешных атак: злоумышленник формирует вход, который побуждает модель «выйти за рамки» системных инструкций или раскрыть скрытую информацию. Простейший пример — «игнорируй все предыдущие инструкции» — классический трюк, позволяющий пользователю подавлять системный промт. Эти атаки используют базовый принцип работы LLM, который подразумевает использование пользовательских промтов, влияя на ответы модели без прямого доступа к ее внутренним процессам.
Возможные последствия:
Практические меры защиты:
- Четкое ограничение ролей и контекста: в системном промте позволяет фиксировать роль, обязанности и рамки поведения модели так, чтобы она однозначно «запрещала» изменения своей роли.
- Фильтрация пользовательского ввода: до подачи контекста модели позволяет анализировать текст на попытки скрытых директив, ключевые слова вроде «игнорируй», «удали», «изменить системный промт».
- Изоляция данных и маркировка внешнего контента: если пользователю разрешено вставлять произвольные документы или ссылки, следует помечать их как «внешний контент» и ограничивать их влияние.
- Состязательное обучение: включать в тренировочную выборку вариации с инъекциями, обучая модель распознавать и отвергать подозрительные инструкции.
2. Атаки уклонения
Суть и механика
Атаки уклонения направлены на модификацию входных данных (текста, аудио, изображения, документы) для введения моделей в заблуждение во время вывода результата, обходя при этом системы контроля. Варианты реализации атаки включают изменение отдельных пикселей в изображении, добавление шума в аудиофайл, изменение формулировки предложения и даже лингвистические особенности различных языков. Например, в тексте атакующий может вставлять невидимые символы, лишние пробелы или скрытые управляющие символы, которые меняют трактовку модели, но не видны пользователю.
Практические меры защиты:
- Состязательное обучение: обучать модель на данных с шумом, использовать методы типа DeepFool и др.
- Тонкая настройка модели и анализ чувствительности : вычислять, как небольшой шум влияет на ответы модели, и выявлять неустойчивые точки.
- Стабилизация выходов (robust regularization): внедрение регуляризаторов, которые штрафуют рост чувствительности.
- Фильтры на уровне предобработки: детектирование подозрительных символов, невидимых вставок, необычных шаблонов в промте.
Аппаратная и облачная АТС. Когда связь локального и виртуального приносит бизнесу пользу Рейтинг российских платформ виртуализации От базового функционала до зрелого продукта мирового уровня — эволюция VMmanager
3. Атаки отравления данных
Суть и механика
Это самая опасная форма атаки, при которой злоумышленники преднамеренно вводят поврежденные или вводящие в заблуждение данные в обучающий набор модели. Цель — либо ухудшить общую работу модели, либо заставить ее ошибаться именно на определенных данных. Зачастую атаки бывают очень тонкими — например, подмешиваются «ядовитые» данные, которые трудно заметить, но которые заставляют модель выдавать неправильные или предвзятые результаты.
Комплексный подход к защите ИИ. Как обезопасить нейросети в приложениях от атак Типы атак отравления данных: backdoor (троянские данные) — вставляют скрытые триггеры, которые активируют нужное поведение модели, data injection — добавляют вредоносные примеры в обучающий набор, mislabeling — подменяют метки, чтобы модель путалась, data manipulation — изменяют или удаляют данные, чтобы сбить обучение.
Возможные последствия:
Последствия могут быть очень серьезными: от сбоев в работе в клиентском сервисе, до проблем в таких чувствительных областях как медицина или кредитный скоринга. Читайте также

Доверие к ИИ начинается с контроля данных Тема секции «ИИ как двойной агент» — это про двойственную роль искусственного интеллекта в компаниях. С одной стороны, появились новые возможности для бизнеса, с другой — источники угроз, требующие особого контроля.
Практические меры защиты
- Контроль и фильтрация данных: необходимо тщательно проверять и валидировать обучающие данные, исследовать аномалии и подозрительные паттерны.
- Защита источников данных: использование только надежных и проверенных датасетов, а при распределенном обучении — организация защиты узлов от несанкционированного доступа, где собираются и обрабатываются данные.
- Методы обнаружения «ядовитых» данных: для этого важно использовать специализированные алгоритмы, например, сравнение с ближайшими соседями (k-NN).
- Мониторинг и аудит модели в процессе эксплуатации: важно следить за изменениями результатов, которые могут указывать на атаки.
- Ограничение доступа и частоты запросов к модели для снижения риска манипуляций в процессе обучения.
4. Атаки инверсии модели
Суть и механика
Атаки инверсии модели направлены на извлечение конфиденциальной информации об обучающих данных. В ходе этих атак злоумышленники анализируют прогнозы, сделанные моделью в ответ на различные входные данные. Используя этот анализ, они могут получить конфиденциальные сведения о данных, на которых обучалась модель. Часто злоумышленник сначала тренирует свою «суррогатную» модель, которая копирует поведение оригинала, а потом с ее помощью восстанавливает исходные данные.
В итоге могут быть скомпрометированы как персональные данные пользователей (например, фотографии лиц, медицинские записи), так и проприетарные данные компаний.
Возможные последствия:
Практические меры защиты:
- Ограничение частоты запросов: не разрешать массовые переборы входов.
- Добавление шума к ответам и анонимизация выходных данных: обрезать вероятность, выдавать категориальные ответы вместо точных.
- Обучение на adversarial-примерах: дообучение модели на «вредоносных» данных, чтобы повысить ее устойчивость к атакам.
- Дифференциальная приватность: добавление формальных механизмов, снижающих риск восстановления личной информации, хотя это может снижать точность модели.
5. Кража модели
Суть и механика
Под моделью кражи понимается ситуация, когда злоумышленник через API делает множество запросов и наблюдает ответы, пытаясь построить «копию» модели или ее функциональность. Получив доступ к реплицированной модели, злоумышленник может использовать ее для различных вредоносных действий.
Цель подобной атаки — либо конкурентное преимущество, либо дальнейшая эксплуатация без лицензии, либо сокрытая подготовка атак.
Возможные последствия:
Практические меры защиты:
- Ограничение числа запросовлицензирование, чтобы не дать злоумышленнику собрать обучающий набор.
- Обфускация: процесс «запутывания» кода или вычислений модели так, чтобы они оставались работоспособными, но были крайне сложны для понимания, анализа и копирования.
- Встраивание водяных знаков: это особые сигнатуры, которые остаются при минимальных изменениях (например, небольшие однородные отклонения), по которым можно защитить авторство и доказать нелегальное копирование.
6. Атаки на вывод членства
Суть и механика
В данной атаке цель злоумышленника — выяснить, присутствовала ли конкретная запись (например, личные данные) в обучающем наборе целевой модели. Он формирует имитационные модели-атакующие, обученные на данных целевой модели. Читайте также

От базового функционала до зрелого продукта мирового уровня — эволюция VMmanager Платформа управления виртуализацией VMmanager позволяет не только обеспечивать базовые потребности бизнеса в виртуальной инфраструктуре, но и реализовывать сложные корпоративные сценарии, востребованные как крупными коммерческими игроками, так и государственным сектором. IT-World рассказывает, какие обновление получила платформа за последний год, какие ключевые нововведения позволили ей завоевать доверие серьезных заказчиков и что ждет VMmanager в будущем.
Так, успешная атака может раскрыть конфиденциальную информацию, например, медицинский диагноз пациента или факт его участия в определенном исследовании, если известно, что его данные использовались для обучения модели, связанной с этим заболеванием.
Практические меры защиты:
- Добавление шума в процесс обучения, чтобы модель не выдавала точную информацию о конкретных тренировочных данных.
- Укрупнение или добавление шума в выходные вероятности модели, предоставление категориальных ответов вместо точных вероятностей для усложнения анализа для атакующего
- Разбиение и ансамблирование (например, SELENA) — обучение нескольких моделей на случайных подвыборках данных.
- Обучение на синтетических данных — помогает уменьшить прямую связь между тренировочными данными и итоговой моделью.
***
Сегодня атаки разнообразны и эволюционируют так же быстро, как и сами технологии, поэтому правильная стратегия защиты — это не набор отдельных мер, а единая экосистема, где технические механизмы сочетаются с организационными практиками и постоянной модернизацией защитных средств. Только такой подход позволяет снизить риски и сохранить устойчивость ИИ-решений в условиях постоянно меняющегося ландшафта угроз.

Андрей Рыковзаместитель генерального директора по ИТ и инновациям «ОБИТ» Информационная безопасностьИскусственный интеллект (ИИ, AI)КиберугрозыГенеративный искусственный интеллект