Проблема выбора языковой модели
При создании продукта, который использует языковую модель (LLM) для генерации образовательного контента, важно учитывать два ключевых фактора: качество текста и его стоимость.
На рынке представлено множество моделей, но большинство публичных тестов (например, MMLU, HumanEval, LMSYS) ориентированы на короткие тексты или задачи программирования и не оценивают способность генерировать длинные тексты на русском языке. Кроме того, эти тесты игнорируют фактор стоимости использования модели.
Результаты тестирования
Мы провели собственное тестирование 18 популярных языковых моделей, чтобы найти оптимальную комбинацию цены и качества. Вот некоторые ключевые выводы:
- GPT-5.4 показала наилучшие результаты по качеству (97 баллов из 100), но её использование обходится дорого ($0.10 за запрос).
- Мы обнаружили более доступную альтернативу, которая обеспечивает 91% от максимального качества всего за $0.0008 за запрос.
- Некоторые модели показали странности: например, семь моделей периодически вставляли китайские иероглифы в русские тексты, а одна даже копировала инструкцию пользователя напрямую в результат.
Методология тестирования
Наше исследование включало следующие этапы:
- Создание набора данных специально для оценки способности моделей генерировать образовательные материалы на русском языке.
- Оценку каждой модели по нескольким критериям, включая грамматику, стиль изложения, логическую связность и соответствие теме.
- Расчёт показателя «value score», который отражает соотношение между качеством результата и стоимостью вызова модели.
Результаты нашего исследования доступны публично, включая подробные таблицы с оценками и формулой расчёта value score.