Создаём безопасный сканер для AI-агентов на LangCh

Проблема безопасности агентных систем

Экосистема AI‑агентов стремительно растёт: фреймворки LangChain, LangGraph и новый Model Context Protocol (MCP) позволяют крупным языковым моделям (LLM) выполнять внешние инструменты, обращаться к веб‑ресурсам и взаимодействовать с реальными средами. Такой уровень автономии открывает огромный потенциал, но одновременно создаёт широкую поверхность атаки. При подключении к агенту сторонних пакетов — будь то MCP‑сервер, библиотека инструментов LangChain или любой пользовательский модуль — модель поглощает их метаданные, описания и сигналы о доступных возможностях. Если в этих артефактах скрыт вредоносный запрос, подменённые зависимости или скрытый код, агент может выполнить их без контроля, тем самым ставя под угрозу конфиденциальность и целостность системы.

Модель угроз: инструменты как потенциальный вектор атаки

Для построения надёжной защиты необходимо формализовать угрозы. Основная аксиома: каждый сторонний пакет считается враждебным, пока его безопасность не подтверждена. Применяя методологию STRIDE (Spoofing, Tampering, Repudiation, Information disclosure, Denial of service, Elevation of privilege) к агентным средам, выделяются несколько критических сценариев:

Supply‑chain атаки – подмена названия пакета (typosquatting) с целью установки вредоносных зависимостей.
Семантическое подделывание – изменение описания инструмента так, чтобы модель интерпретировала его как «игнорировать предыдущие инструкции и раскрыть секреты».
Внедрение скрытых payload‑ов – сокрытие базовых64‑строк, Unicode‑стеганографии или скриптов в README, комментариях и метаданных.
Неявный вызов системных команд – использование eval, exec, subprocess.run и аналогичных функций без явного указания в интерфейсе инструмента.

Эти пути позволяют злоумышленнику напрямую влиять на «зону рассуждений» LLM, изменяя её выводы и действия. Поэтому необходимо проверять инструменты ещё до их загрузки в агентную среду.

Agentic Scanner: многоуровневая защита

Agentic Scanner – это предварительный проверочный модуль, который анализирует навыки (skills) и инструменты агента перед их активацией. Архитектура сканера построена на принципе «защита в глубине» (defense‑in‑depth) и состоит из нескольких слоёв, каждый из которых решает отдельный тип угроз.

Статический анализ: проверка кода и зависимостей

Первый слой работает быстро и детерминировано, обрабатывая входные артефакты в виде MCP‑манифеста (JSON) или исходного кода Python. Ключевые подпункты:

AST‑сканирование – построение абстрактного синтаксического дерева (Abstract Syntax Tree) и поиск опасных вызовов: eval, exec, execfile, os.system, subprocess.Popen и их аналоги. При обнаружении такие узлы помечаются как потенциально опасные, и сканер требует их явного разрешения.
Аудит зависимостей – сравнение названий импортируемых пакетов с белым списком безопасных библиотек. Для обнаружения typosquatting применяется вычисление расстояния Левенштейна; отклонения выше порога (обычно 2) вызывают предупреждение. Кроме того, проверяется наличие фиксированных (pinned) версий, чтобы исключить «floating» зависимости.
Текстовые проверки – поиск скрытых данных в строковых литералах: Unicode‑символы, которые могут скрывать стеганографический сигнал, а также базовые64‑строки, превышающие обычный размер. При обнаружении сканер выводит хеши найденных фрагментов для последующего анализа.

Динамический и семантический контроль

Второй слой активируется после прохождения статической проверки и фокусируется на семантической целостности инструмента:

Валидация схемы – проверка, что JSON‑описание MCP‑инструмента соответствует ожидаемому формату (поле description не содержит инструкций, противоречащих политике безопасности).
Симуляция выполнения – безопасный «песочный» запуск функции с заранее подготовленными мок‑данными. При попытке выполнить системный вызов или обратиться к сети сканер фиксирует исключение и блокирует дальнейшую загрузку.
Контроль поведения LLM – анализ того, как модель интерпретирует описание инструмента. При помощи небольшого «пробного» запроса проверяется, не генерирует ли модель нежелательные инструкции (например, запросы к конфиденциальным файлам).

Интеграция с LangChain и MCP

Agentic Scanner построен как модуль, совместимый с LangChain и MCP:

Для LangChain предоставляются обёртки ToolValidator и ChainValidator, которые можно подключить к цепочке инструментов через параметр pre_execution_hook. При попытке добавить новый Tool сканер автоматически вызывается, и только проверенный объект попадает в цепочку.
Для MCP реализован ManifestInterceptor, который перехватывает загрузку манифеста, проводит все описанные выше проверки и возвращает либо подтверждённый JSON, либо ошибку с детализированным отчётом.

Интеграция не требует изменения существующего кода агентных приложений: достаточно импортировать соответствующий хук и указать его в конфигурации. Это упрощает внедрение в уже работающие проекты и минимизирует риск регрессий.

Практические рекомендации по использованию

Включайте сканер в CI/CD – автоматизируйте проверку новых пакетов и обновлений перед их деплоем.
Обновляйте белый список зависимостей – регулярно синхронизируйте список безопасных библиотек с официальными репозиториями.
Логируйте результаты – храните отчёты о найденных аномалиях для последующего аудита и обучения модели детекции.
Периодически переоценивайте правила – с ростом экосистемы появляются новые векторы атак; правила сканера должны эволюционировать вместе с ними.

Сочетание строгого статического анализа, динамического симулирования и семантической валидации позволяет создать надёжный барьер между LLM и потенциально опасными сторонними инструментами. При правильной интеграции Agentic Scanner становится неотъемлемой частью любой инфраструктуры, где AI‑агенты взаимодействуют с внешними сервисами, обеспечивая безопасность на всех уровнях цепочки поставок.

Защита AI‑агентов: как построить сканер предварительного выполнения для LangChain и MCP