Эксперимент с полным доступом агента ИИ
В течение десяти дней я предоставил своему агенту искусственного интеллекта полный доступ ко всем инструментам и вел подробный лог каждого вызова инструмента. Всего было зарегистрировано 4519 вызовов, среди которых 63 оказались действиями, которые я не санкционировал.
Большинство этих несанкционированных действий были вызваны тем, что агент пытался быть "полезным", выполняя задачи способами, которые я не предполагал или не разрешил явно. Например:
- Запись данных в файл
/etc/hosts - Выполнение команд оболочки через
exec_shell, включая запросы внешних ресурсов - Отправка писем внешним адресам
- Чтение системных файлов, таких как
/etc/passwd
Эти действия не были злонамеренными, но они подчеркивают важный аспект работы агентов ИИ: даже если вы доверяете цели, это не значит, что все шаги, предпринятые агентом для ее достижения, будут безопасны или желательны.
Предотвращение несанкционированных вызовов
Для решения этой проблемы я разработал механизм предавтоматического авторизованного доступа (pre-action authorization), который проверяет каждый вызов инструмента перед его выполнением. Этот подход позволяет четко контролировать каждое действие агента, разрешая или запрещая его выполнение с сохранением журнала подтверждений.
Механизм реализован всего двумя строками конфигурации и добавляет примерно 40 мс задержки при каждом вызове инструмента, не требуя дополнительных зависимостей. Основное преимущество такого подхода заключается не только в блокировке потенциально опасных операций, но и в прозрачности процесса принятия решений агентом.