Как создать AI-компанию на основе открытых моделей

Архитектура без человеческого цикла

В центре системы находятся девять специализированных AI‑агентов, каждый из которых отвечает за отдельный этап разработки и эксплуатации новых агентов. Цепочка выглядит так: оркерестратор → билдер → критик → деплой. Каждый агент работает автономно, получая запросы, генерируя ответы и передавая результаты дальше. Исключение человека из цикла позволяет сократить расходы, ускорить итерации и обеспечить постоянный мониторинг качества.

Подбор моделей под роли

Ключевой принцип – «не лучшая модель в целом, а лучшая модель для конкретной задачи». Для каждой роли проведён бенчмарк‑анализ, после чего выбран оптимальный набор открытых моделей:

Роль	Модель (версии)	Бенчмарк	Доля успеха
Оркестратор	Llama‑3‑70B‑Instruct	GPQA (Generalized QA)	88.4 %
Билдер кода	StarCoder‑15B	HumanEval (генерация кода)	92.7 %
Критик (tool‑use)	Mistral‑7B‑Instruct	tau‑bench (понимание инструментов)	87.4 %
Тестировщик	OpenChat‑3.5	CodeXGLUE (тесты)	85.1 %
Планировщик	Falcon‑40B‑Instruct	GSM‑8K (математические задачи)	90.2 %
Деплой‑менеджер	Phi‑2	MLPerf (инференс)	89.6 %

Шесть моделей покрывают все девять ролей за счёт шаринга инстансов: один экземпляр модели может обслуживать несколько агентов, если их задачи схожи по характеру запросов и нагрузке. Это позволяет сократить потребление GPU‑памяти и упростить управление.

Инфраструктура инференса

Аппаратные конфигурации

Минимальный вариант – один сервер с RTX 4090 (24 ГБ VRAM). При такой конфигурации модели 7 Б и ниже работают в полном 32‑битном режиме, а более тяжёлые модели (70 Б) запускаются в 8‑битной квантизации с динамической шкалой, что сохраняет > 85 % точности на ключевых бенчмарках.
Средний вариант – два сервера с RTX 4090 и A6000 (48 ГБ). Позволяет разместить все шесть моделей в FP16, что даёт прирост производительности до 2‑х раз по сравнению с 8‑битной схемой.
Корпоративный вариант – кластер из трёх GPU A100 (211 ГБ VRAM каждый). Здесь модели работают в FP8 (при поддержке драйвера), достигая максимального пропускного уровня инференса и минимального латентного отклика для интерактивных задач.

Квантизация и оптимизация

Static 8‑bit применяется к моделям ≥ 30 Б, где требуется экономия памяти без значительных потерь в качестве.
Dynamic 4‑bit используется для модели Llama‑3‑70B в режиме оркестратора, где критичен быстрый отклик.
TensorRT и ONNX Runtime интегрированы для ускорения матричных операций, особенно на A100.
Pipeline parallelism разбивает тяжёлые модели на отдельные слои, распределяя их между несколькими GPU, что уменьшает нагрузку на отдельный чип.

Менеджмент агентов и оркестрация

Внутри системы реализован центральный контроллер на базе FastAPI, который принимает задачи от внешних сервисов (например, API-платформы) и распределяет их между агентами через RabbitMQ. Каждый агент представляет собой микросервис с Docker‑образом, обеспечивая изоляцию и простоту масштабирования.

Очереди с приоритетами позволяют задавать более высокую важность для критических ролей (оркестратор, билдер).
Трассировка запросов реализована через OpenTelemetry, что даёт полную видимость времени выполнения и узких мест.
Автоматическое масштабирование (Horizontal Pod Autoscaler) реагирует на рост нагрузки, добавляя новые инстансы модели в режиме реального времени.

Дашборд и мониторинг

Для визуального контроля над процессом разработан интерактивный дашборд на React + Ant Design, подключённый к Prometheus и Grafana. Дашборд показывает:

Текущий статус каждого агента (idle, processing, error).
Метрики производительности: throughput, latency, GPU‑utilization.
Качество выдачи: процент успешных проходов бенчмарков в реальном времени.
Логи запросов и ответы моделей, отфильтровываемые по ролям и уровням доверия.

Встроенный feedback loop позволяет автоматически переобучать модели‑критики, если их оценки отклоняются от заданных порогов (например, < 85 % по tau‑bench). Переобучение происходит в отдельном контейнере, используя LoRA‑адаптеры, что не требует полной переинициализации модели.

Экономический эффект

Сокращение человеческого участия до минимума и использование единственного сервера (или небольшого кластера) приводит к экономии до 80 % по сравнению с традиционными подходами, где каждый этап выполняет отдельный инженер. При этом скорость вывода новых агентов увеличивается в 4‑5 раз благодаря полной автоматизации pipeline.

Перспективы развития

Расширение ролей: добавление агентов‑аналитиков для оценки бизнес‑рисков и агентов‑модераторов для контроля этичности.
Мульти‑модельные ансамбли: использование нескольких моделей в одной роли для повышения надёжности (например, двойной билдер кода).
Edge‑деплой: перенос части агентов на устройства с ограниченными ресурсами (Jetson, Raspberry Pi) с помощью ONNX‑runtime‑mobile.

Эти направления открывают возможности для создания полностью автономных AI‑компаний, способных самостоятельно генерировать, тестировать и внедрять новые интеллектуальные сервисы без постоянного участия человека.

Как построить AI‑компанию на открытых моделях: 9 агентов, 6 моделей, один сервер