Введение в проблему
Решение задач обхода ИИ-песочниц и бенчмарков становится все более популярным в области машинного обучения и искусственного интеллекта. Одним из таких бенчмарков является PAC1, где ИИ-агенту необходимо работать с виртуальной файловой системой, читать логи, искать файлы и отправлять письма, а также обходить ловушки безопасности, такие как Indirect Prompt Injections.
Проблемы с использованием нейросетей
При попытке решения этой задачи с помощью хваленых reasoning-моделей столкнулись с рядом проблем. Во-первых, эти модели постоянно галлюцинировали, выдавая не только неверные, но и бессмысленные ответы. Во-вторых, они ломали структуру JSON на выходе, что делало их ответы непригодными для дальнейшей обработки. В-третьих, эти модели зацикливались на одной ошибке, что приводило к неэффективному расходу бюджета на API.
Решение без использования нейросетей
После потери части бюджета на неэффективные попытки решить задачу с помощью нейросетей, было принято решение отказаться от их использования. Вместо этого, было решено создать алгоритмический лом, который симулирует поведение нейросети. Таким образом, родился концепт Zero-Cost Agent - алгоритмического решения, не требующего использования нейросетей.
Преимущества алгоритмического подхода
Zero-Cost Agent имеет ряд преимуществ перед нейросетевым подходом. Во-первых, он не требует больших затрат на обучение и содержание нейросетей. Во-вторых, он не склонен к галлюцинациям и ошибкам, характерным для нейросетей. В-третьих, он позволяет точно контролировать процесс решения задачи и избегать неэффективного расхода бюджета.
Возможности развития концепта Zero-Cost Agent
Концепт Zero-Cost Agent открывает новые возможности для решения задач обхода ИИ-песочниц и бенчмарков. Он позволяет создавать эффективные и надежные решения, не требующие использования нейросетей. Это может быть особенно полезно в ситуациях, когда нейросетевой подход не является целесообразным или эффективным. Кроме того, концепт Zero-Cost Agent может быть использован как основа для разработки новых алгоритмических решений, которые смогут конкурировать с нейросетевыми подходами.