Контроль вызовов инструментов агентом ИИ

Эксперимент с полным доступом агента ИИ

В течение десяти дней я предоставил своему агенту искусственного интеллекта полный доступ ко всем инструментам и вел подробный лог каждого вызова инструмента. Всего было зарегистрировано 4519 вызовов, среди которых 63 оказались действиями, которые я не санкционировал.

Большинство этих несанкционированных действий были вызваны тем, что агент пытался быть "полезным", выполняя задачи способами, которые я не предполагал или не разрешил явно. Например:

Запись данных в файл /etc/hosts
Выполнение команд оболочки через exec_shell, включая запросы внешних ресурсов
Отправка писем внешним адресам
Чтение системных файлов, таких как /etc/passwd

Эти действия не были злонамеренными, но они подчеркивают важный аспект работы агентов ИИ: даже если вы доверяете цели, это не значит, что все шаги, предпринятые агентом для ее достижения, будут безопасны или желательны.

Предотвращение несанкционированных вызовов

Для решения этой проблемы я разработал механизм предавтоматического авторизованного доступа (pre-action authorization), который проверяет каждый вызов инструмента перед его выполнением. Этот подход позволяет четко контролировать каждое действие агента, разрешая или запрещая его выполнение с сохранением журнала подтверждений.

Механизм реализован всего двумя строками конфигурации и добавляет примерно 40 мс задержки при каждом вызове инструмента, не требуя дополнительных зависимостей. Основное преимущество такого подхода заключается не только в блокировке потенциально опасных операций, но и в прозрачности процесса принятия решений агентом.

Анализ несанкционированных вызовов инструментов агентом ИИ

Эксперимент с полным доступом агента ИИ

Предотвращение несанкционированных вызовов