Prompt injection: почему защита не работает?

Что такое prompt injection

Prompt injection (внедрение в запрос) — вид атак, при котором злоумышленник изменяет или подменяет инструкцию, подаваемую в языковую модель (LLM). В отличие от классических уязвимостей, таких как SQL‑инъекция, где атакующий воздействует на структуру запросов к базе данных, в случае LLM‑моделей цель — модифицировать «контекст» генерации текста. Это позволяет заставить модель выполнять нежелательные действия: раскрывать конфиденциальные данные, обходить ограничения контента, генерировать вредоносный код и даже управлять другими системами, интегрированными через API.

OWASP уже второй год помещает prompt injection в топ‑5 критических угроз. По результатам независимых аудитов более 70 % продакшн‑сервисов, использующих генеративный ИИ, демонстрируют уязвимость к подобным атакам. Проблема в том, что традиционные защитные слои (валидация ввода, WAF, sandbox) не учитывают семантику естественного языка и не способны отличить «законный» запрос от подстроенного.

Механизмы атак

Prompt injection реализуется через несколько типовых техник:

Текстовое встраивание – злоумышленник добавляет в пользовательский ввод специальные команды (например, «Ignore previous instructions and …»), которые переопределяют исходный системный промпт.
Контекстный переезд – в чат‑ботах предыдущие сообщения сохраняются в контексте. Подделка истории (например, подмена ролей «assistant», «system») позволяет вводить новые правила поведения модели.
Zero‑click – атака, не требующая взаимодействия с пользователем. Вредоносный контент автоматически обрабатывается системой (например, при парсинге входящих email‑сообщений) и приводит к выполнению нежелательных инструкций.
Встраивание в код – при генерации кода модель может быть «запрограммирована» добавить бекдор или вызвать внешние сервисы, если в запросе присутствует скрытая команда.

Эти механизмы используют фундаментальное свойство LLM — их «приверженность» инструкциям, независимо от их происхождения.

Критический случай: zero‑click атака на 1,4 млрд устройств

В начале 2024 года исследователи обнаружили, что массовая рассылка рекламных писем с вложенными HTML‑тегами, содержащими специально сформированный prompt, приводит к автоматическому выполнению инструкций в облачном сервисе генерации текста, интегрированном в системе обработки входящих сообщений. При получении письма система передаёт его содержимое в LLM для анализа, не проверяя, что часть текста является инструкцией, а не обычным контентом.

В результате модель генерировала команды, которые инициировали загрузку и исполнение вредоносного кода на серверах, обслуживающих более 1,4 млрд конечных устройств (смартфоны, IoT‑терминалы, корпоративные ПК). Атака была полностью автоматизирована: пользователю не требовалось открывать письмо, кликать ссылки или выполнять какие‑либо действия. Этот инцидент продемонстрировал, что даже «пассивные» интеграции ИИ могут стать вектором массового zero‑click взлома.

Философский jailbreak: обход этических ограничений

Еще один яркий пример — «философский jailbreak», при котором атакующий использует длинный цепочный запрос, имитирующий диалог между двумя абстрактными персонажами (например, «Philosopher» и «Rebel»). В процессе диалога модель постепенно «размывает» свои первоначальные ограничения, переходя к генерации контента, который обычно запрещён (насилие, пропаганда, инструкции по изготовлению оружия).

Ключевой момент – постепенное «обучение» модели внутри одного сеанса. Каждый ответ модели служит новым входом, позволяя атакующему построить сложный сценарий, в котором система сама «согласится» на выполнение запрещённого действия. Такой подход оказался эффективным даже против моделей, обученных на строгих системных промптах, и подчёркивает невозможность полностью изолировать LLM от контекстных манипуляций.

Последствия для безопасности AI‑сервисов

Prompt injection меняет традиционную модель угроз:

Конфиденциальность – модель может раскрыть данные, полученные из закрытых API, если атакующий заставит её вывести их в ответе.
Контроль доступа – злоумышленник может получить привилегированный доступ к сервисам, управляемым через LLM (например, автоматическое создание и удаление ресурсов в облаке).
Репутационные риски – генерация оскорбительного или незаконного контента поднимает юридические вопросы и может привести к блокировке сервисов.
Экономический ущерб – автоматическое выполнение команд (например, запуск дорогостоящих вычислительных задач) способно вызвать значительные финансовые потери.

Эти риски требуют переосмысления подходов к тестированию и мониторингу AI‑приложений.

Практические меры защиты

Разделение контекстов. Храните системный промпт отдельно от пользовательского ввода и не позволяйте последнему изменять его. При каждой генерации формируйте «чистый» запрос, в котором пользовательский текст передаётся только в специально отведённом поле.
Фильтрация инструкций. Используйте предварительные модели‑детекторы, обученные различать команды от обычного текста. При обнаружении потенциальных инструкций отклоняйте запрос или преобразуйте его в безопасный формат.
Контроль токенов. Ограничьте длину и структуру входных данных, запрещая включать системные токены (например, «system», «assistant») в пользовательском контенте.
Аудит цепочек диалогов. Внедрите логирование и анализ последовательных сообщений, чтобы обнаруживать постепенное «размытие» инструкций. Автоматические правила могут прерывать сессии, если количество смен ролей превышает порог.
Изоляция внешних вызовов. При интеграции LLM с другими сервисами (API, базы данных) используйте строгие whitelist‑правила и ограничьте набор операций, которые модель может инициировать.
Регулярные «red‑team» тесты. Проводите имитацию атак с использованием реальных техник prompt injection, включая zero‑click сценарии и jailbreak‑цепочки, чтобы проверять эффективность контролей.

Эти практики позволяют снизить вероятность успешного внедрения, но полностью устранить угрозу пока невозможно из‑за фундаментальной природы LLM — их готовность следовать любой полученной инструкции.

Prompt injection уже доказал, что традиционные модели защиты, ориентированные на синтаксический анализ, не способны противостоять семантическим атакам. Понимание механизмов, примеров реальных инцидентов и внедрение многоуровневого контроля контекста становятся критически важными для любой организации, использующей генеративный ИИ в продакшн‑окружении.

Prompt injection: почему традиционные подходы к защите не работают