Метрики оценки качества RAG-систем: поиск и генерация

RAG (Retrieval‑Augmented Generation) объединяет два фундаментальных компонента: модуль поиска релевантных фрагментов и генеративную модель, которая использует найденный контекст для построения ответа. Оценка такой гибридной архитектуры требует комплексного подхода, поскольку эффективность поиска напрямую влияет на качество генерируемого текста. Ниже рассмотрены ключевые метрики, применяемые на каждом этапе, а также общие критерии, отражающие пользовательский опыт.

Метрики поиска: насколько точно система извлекает нужный контент

Recall@k и Precision@k

Recall@k измеряет долю релевантных документов, попавших в топ‑k результатов. Высокий recall важен, когда задача подразумевает полное покрытие информации (например, юридический поиск).
Precision@k показывает, какую часть из топ‑k результатов действительно релевантна запросу. При низкой precision система «засоряет» генератор нерелевантными фрагментами, повышая риск галлюцинаций.

Mean Reciprocal Rank (MRR)

MRR учитывает позицию первого релевантного документа. Если релевантный фрагмент появляется в ранге 1, значение MRR равно 1; если в ранге 3 — 1/3. Этот показатель удобен для систем, где достаточно одного точного фрагмента.

Normalized Discounted Cumulative Gain (nDCG)

nDCG учитывает градацию релевантности (например, 0 – 3) и штрафует за размещение более релевантных фрагментов ниже в списке. Позволяет сравнивать разные ранжировщики, учитывая как количество, так и порядок релевантных результатов.

Coverage и Redundancy

Coverage измеряет, насколько полно найденный набор покрывает все аспекты запроса. Redundancy оценивает количество дублирующих фрагментов, которые могут «перегрузить» генератор. Оба показателя важны в задачах, где требуется разнообразие информации без избыточности.

Метрики генерации: как оценить качество текста, построенного на найденных данных

BLEU, ROUGE, METEOR

Традиционные n‑gram‑метрики остаются базовым инструментом для сравнения генерируемого ответа с эталонным. BLEU измеряет точность совпадения n‑gram, ROUGE — полноту (особенно полезно для суммирования), METEOR учитывает стемминг и синонимы, снижая чувствительность к формальной разнице.

BERTScore и MoverScore

Эти метрики используют контекстные эмбеддинги (BERT, RoBERTa) для сравнения семантического сходства между генерируемым текстом и референсом. Они более устойчивы к перефразированию и позволяют оценивать смысловую близость, а не только совпадение токенов.

Factual Consistency (FactCC, QAFactEval)

RAG‑системы подвержены «галлюцинациям», когда генератор создаёт утверждения, не подтверждённые найденным контекстом. Специальные модели, обученные на задачах проверки фактов, измеряют степень соответствия сгенерированного текста исходным фрагментам. Оценка обычно выражается в виде точности или F1‑score.

Answerability и Answer Relevance

Для вопросов‑ответов важны два взаимосвязанных аспекта: answerability (может ли система дать ответ) и relevance (соответствует ли ответ запросу). Метрики часто реализуются через классификаторы, которые дают бинарный сигнал «ответ есть/нет», а также ранжируют ответы по релевантности.

Human‑in‑the‑Loop оценки

Автоматические метрики не заменяют человеческую экспертизу. Параметры, такие как Readability, Coherence, Fluency, оцениваются по шкалам (например, 1‑5) квалифицированными рецензентами. При этом часто используется pairwise comparison: сравнение двух вариантов ответа для выбора лучшего.

Сквозные показатели: от эффективности до пользовательского опыта

Latency и Throughput

В реальном времени запросы требуют быстрых откликов. Метрики latency (время от поступления запроса до возврата ответа) и throughput (количество запросов в секунду) измеряются на уровне всей пайплайна RAG, включая поиск, индексацию и генерацию.

Cost per Query

Для облачных решений важен финансовый аспект: стоимость вычислений (GPU/CPU) и запросов к внешним базам данных. Метрика cost per query помогает сравнивать варианты архитектур (например, dense vs. sparse retrieval) с точки зрения экономической эффективности.

User Satisfaction (CSAT, NPS)

Конечный индикатор — удовлетворённость пользователей. CSAT (Customer Satisfaction Score) собирается через короткие опросы после взаимодействия, а NPS (Net Promoter Score) отражает готовность рекомендовать сервис. Эти метрики часто коррелируют с качеством фактической согласованности и скоростью ответа.

Практический набор метрик для комплексной оценки RAG

Recall@10 / Precision@10 – базовый контроль качества поиска.
MRR – быстрый индикатор ранжирования первого релевантного фрагмента.
nDCG@20 – учитывает градацию релевантности и порядок.
BERTScore – семантическая близость генерируемого текста к референсу.
FactCC F1 – измерение фактической согласованности.
Latency (ms) – время отклика всей системы.
CSAT – пользовательская оценка качества.

Комбинация этих метрик позволяет построить сбалансированную систему мониторинга: автоматические скрипты собирают сквозные показатели (recall, BERTScore, latency), а периодически проводятся человеческие оценки (FactCC, CSAT). Такой подход обеспечивает как техническую, так и пользовательскую ориентацию развития RAG‑моделей.

Выбор метрик в зависимости от задачи

Суммирование документов: приоритеты — ROUGE‑L, BERTScore, nDCG (для поиска релевантных абзацев).
Вопрос‑ответ: Recall@k, FactCC, Answerability, latency.
Диалоговые системы: Fluency, Coherence, CSAT, throughput.
Экспертные системы (медицинские, юридические): высокий порог FactCC, низкая redundancy, строгий контроль latency.

Оптимальная метрика определяется целями продукта: если критична точность фактов, ставятся на первый план FactCC и Recall; если важна реактивность, акцент смещается к latency и throughput. При этом всегда сохраняется баланс между автоматическими и человеческими оценками, поскольку только совместный подход способен выявить скрытые слабости гибридных RAG‑архитектур.

Метрики оценки качества RAG‑систем: от поиска до генерации