Иллюзия простого включения рассуждений
В теории включение механизма рассуждений у крупных языковых моделей должно улучшать их ответы. На практике же всё оказывается сложнее:
- Модели не всегда рассуждают при явных запросах.
- Часто модели чрезмерно используют ресурсы даже на простых задачах, что приводит к перерасходу токенов.
- Поведение отличается от провайдера к провайдеру и между версиями одной модели.
Таким образом, вместо предсказуемой производительности разработчики сталкиваются с непредсказуемостью поведения моделей во время выполнения.
Проблема фрагментации в рассуждениях ЛЯМ
Одна из ключевых проблем современной инфраструктуры искусственного интеллекта – это фрагментация подходов к реализации рассуждений крупными поставщиками услуг ИИ:
- OpenAI предлагает уровни усилий («низкий», «средний», «высокий»).
- Anthropic (Claude) использует явно заданные бюджеты токенов для рассуждений.
- Google AI (Gemini) применяет гибридный подход, зависящий от версии модели.
Кроме того, выходные данные также сильно различаются:
- Некоторые модели возвращают отдельные блоки рассуждений.
- Другие предоставляют краткое изложение процесса рассуждений.
- Третьи смешивают рассуждения прямо в стандартные ответы.
Это означает отсутствие единого формата или интерфейса, что усложняет работу разработчиков, которым приходится создавать нормализацию входных данных и логику парсинга выходных данных индивидуально под каждого поставщика.
Оптимизация затрат становится подвижной целью
Рассуждения влияют не только на производительность, но и на прогнозируемость расходов. Из-за различий в поведении моделей затраты могут значительно варьироваться, делая оптимизацию бюджета сложной задачей.