Архитектура без человеческого цикла
В центре системы находятся девять специализированных AI‑агентов, каждый из которых отвечает за отдельный этап разработки и эксплуатации новых агентов. Цепочка выглядит так: оркерестратор → билдер → критик → деплой. Каждый агент работает автономно, получая запросы, генерируя ответы и передавая результаты дальше. Исключение человека из цикла позволяет сократить расходы, ускорить итерации и обеспечить постоянный мониторинг качества.
Подбор моделей под роли
Ключевой принцип – «не лучшая модель в целом, а лучшая модель для конкретной задачи». Для каждой роли проведён бенчмарк‑анализ, после чего выбран оптимальный набор открытых моделей:
| Роль | Модель (версии) | Бенчмарк | Доля успеха |
|---|---|---|---|
| Оркестратор | Llama‑3‑70B‑Instruct | GPQA (Generalized QA) | 88.4 % |
| Билдер кода | StarCoder‑15B | HumanEval (генерация кода) | 92.7 % |
| Критик (tool‑use) | Mistral‑7B‑Instruct | tau‑bench (понимание инструментов) | 87.4 % |
| Тестировщик | OpenChat‑3.5 | CodeXGLUE (тесты) | 85.1 % |
| Планировщик | Falcon‑40B‑Instruct | GSM‑8K (математические задачи) | 90.2 % |
| Деплой‑менеджер | Phi‑2 | MLPerf (инференс) | 89.6 % |
Шесть моделей покрывают все девять ролей за счёт шаринга инстансов: один экземпляр модели может обслуживать несколько агентов, если их задачи схожи по характеру запросов и нагрузке. Это позволяет сократить потребление GPU‑памяти и упростить управление.
Инфраструктура инференса
Аппаратные конфигурации
- Минимальный вариант – один сервер с RTX 4090 (24 ГБ VRAM). При такой конфигурации модели 7 Б и ниже работают в полном 32‑битном режиме, а более тяжёлые модели (70 Б) запускаются в 8‑битной квантизации с динамической шкалой, что сохраняет > 85 % точности на ключевых бенчмарках.
- Средний вариант – два сервера с RTX 4090 и A6000 (48 ГБ). Позволяет разместить все шесть моделей в FP16, что даёт прирост производительности до 2‑х раз по сравнению с 8‑битной схемой.
- Корпоративный вариант – кластер из трёх GPU A100 (211 ГБ VRAM каждый). Здесь модели работают в FP8 (при поддержке драйвера), достигая максимального пропускного уровня инференса и минимального латентного отклика для интерактивных задач.
Квантизация и оптимизация
- Static 8‑bit применяется к моделям ≥ 30 Б, где требуется экономия памяти без значительных потерь в качестве.
- Dynamic 4‑bit используется для модели Llama‑3‑70B в режиме оркестратора, где критичен быстрый отклик.
- TensorRT и ONNX Runtime интегрированы для ускорения матричных операций, особенно на A100.
- Pipeline parallelism разбивает тяжёлые модели на отдельные слои, распределяя их между несколькими GPU, что уменьшает нагрузку на отдельный чип.
Менеджмент агентов и оркестрация
Внутри системы реализован центральный контроллер на базе FastAPI, который принимает задачи от внешних сервисов (например, API-платформы) и распределяет их между агентами через RabbitMQ. Каждый агент представляет собой микросервис с Docker‑образом, обеспечивая изоляцию и простоту масштабирования.
- Очереди с приоритетами позволяют задавать более высокую важность для критических ролей (оркестратор, билдер).
- Трассировка запросов реализована через OpenTelemetry, что даёт полную видимость времени выполнения и узких мест.
- Автоматическое масштабирование (Horizontal Pod Autoscaler) реагирует на рост нагрузки, добавляя новые инстансы модели в режиме реального времени.
Дашборд и мониторинг
Для визуального контроля над процессом разработан интерактивный дашборд на React + Ant Design, подключённый к Prometheus и Grafana. Дашборд показывает:
- Текущий статус каждого агента (idle, processing, error).
- Метрики производительности: throughput, latency, GPU‑utilization.
- Качество выдачи: процент успешных проходов бенчмарков в реальном времени.
- Логи запросов и ответы моделей, отфильтровываемые по ролям и уровням доверия.
Встроенный feedback loop позволяет автоматически переобучать модели‑критики, если их оценки отклоняются от заданных порогов (например, < 85 % по tau‑bench). Переобучение происходит в отдельном контейнере, используя LoRA‑адаптеры, что не требует полной переинициализации модели.
Экономический эффект
Сокращение человеческого участия до минимума и использование единственного сервера (или небольшого кластера) приводит к экономии до 80 % по сравнению с традиционными подходами, где каждый этап выполняет отдельный инженер. При этом скорость вывода новых агентов увеличивается в 4‑5 раз благодаря полной автоматизации pipeline.
Перспективы развития
- Расширение ролей: добавление агентов‑аналитиков для оценки бизнес‑рисков и агентов‑модераторов для контроля этичности.
- Мульти‑модельные ансамбли: использование нескольких моделей в одной роли для повышения надёжности (например, двойной билдер кода).
- Edge‑деплой: перенос части агентов на устройства с ограниченными ресурсами (Jetson, Raspberry Pi) с помощью ONNX‑runtime‑mobile.
Эти направления открывают возможности для создания полностью автономных AI‑компаний, способных самостоятельно генерировать, тестировать и внедрять новые интеллектуальные сервисы без постоянного участия человека.