Эволюция ландшафта угроз
Классические методы обеспечения безопасности моделей машинного обучения (LLM) были разработаны под конкретные сценарии взаимодействия пользователя с системой через текстовые интерфейсы. Однако стремительное развитие технологий привело к тому, что эти методы быстро устаревают.
Проблемы первого поколения LLM Firewall
Первоначально концепция LLM Firewall была основана на фильтрации запросов пользователей перед отправкой их моделям и проверке полученных ответов. Это похоже на традиционные системы контроля доступа и предотвращения потери данных (DLP), где трафик проходит через промежуточные фильтры. Тем не менее, такая архитектура имеет ряд недостатков:
- Отсутствие учета контекста: Фильтрация отдельных сообщений без понимания общего контекста общения может привести к ложным срабатываниям или пропуску опасных действий.
- Высокая нагрузка на систему: Необходимость обработки большого объема информации в режиме реального времени создает дополнительную нагрузку на инфраструктуру.
- Уязвимость к обходу фильтров: Пользователи могут использовать различные техники инъекции запросов («prompt injection») для обхода ограничений.
Переход к миру AI-агентов
С развитием автономных агентов, способных самостоятельно вызывать внешние сервисы, обращаться к базам данных и взаимодействовать друг с другом, старые подходы становятся неэффективными. Современные угрозы включают:
- Утечку конфиденциальной информации: Агенты могут случайно передавать личные данные третьим лицам при выполнении задач.
- Неправомерное использование ресурсов: Автономные агенты способны злоупотреблять доступом к системам компании, вызывая финансовые убытки или нарушение работы сервисов.
- Атаки на сами модели: Хакеры могут попытаться изменить поведение агента путем манипуляции его внутренними параметрами.
Таким образом, современные системы безопасности должны учитывать новые реалии и обеспечивать защиту не только на уровне входящего трафика, но и внутри самой среды выполнения агентов.