LLM-декодеры улучшают распознавание русской речи

Преимущества использования LLM в ASR-системах

Современные системы автоматического распознавания речи (Automatic Speech Recognition, ASR) сталкиваются со сложностями при обработке спонтанных разговоров, таких как телефонные звонки или видеоконференции. Эти типы диалогов часто содержат фоновый шум, нестандартный акцент говорящих и другие факторы, снижающие точность распознавания.

В последние годы крупные компании активно исследуют применение больших языковых моделей (Large Language Models, LLM) в качестве декодеров для улучшения точности ASR-систем. Одной из перспективных архитектур является модель Canary-Qwen-2.5B от NVIDIA, основанная на подходе SALM (Speech Augmented Language Model). Она сочетает традиционный речевой энкодер с мощными возможностями генерации текста LLM, что позволяет значительно повысить качество распознавания даже в сложных ситуациях.

Практический опыт применения модели Canary-Qwen-2.5B

Команда разработчиков Контура решила протестировать возможности этой новой архитектуры на своих задачах обработки русского языка. Несмотря на отсутствие большого объема предварительно размеченных данных, команда смогла адаптировать модель под специфику своего бизнеса, включающую обработку миллионов звонков и видеозвонков ежедневно.

Результаты показали значительное улучшение показателей Word Error Rate (WER), особенно в случаях, где речь была сложной для распознавания традиционными методами. Это подтверждает потенциал использования современных LLM-моделей в реальных бизнес-приложениях, связанных с обработкой естественной речи.

Применение LLM-декодера в системах распознавания русской речи

Преимущества использования LLM в ASR-системах

Практический опыт применения модели Canary-Qwen-2.5B