Семь ключевых метрик: как объективно оценивать ответы больших языковых моделей
Однако, несмотря на их впечатляющие способности, крайне важно уметь оценивать качество генерируемых ответов. Чтобы выделить сильные и слабые стороны, мы будем опираться на семь ключевых метрик:
- Relevance (Релевантность)
- Completeness (Полнота)
- Clarity (Ясность)
- Factual Correctness (Фактическая корректность)
- Context Integration (Интеграция контекста)
- Confidence (Уверенность)
- Overall Score (Общая оценка, 0–10)
Рассмотрим каждую метрику по отдельности.
1. Relevance (Релевантность)
Определение
Релевантность показывает, насколько ответ соответствует заданному вопросу.
Как оценивать
- Соответствие тематике. Вопрос может быть о математических расчётах, исторических событиях или рецептах; важно проверить, касается ли ответ именно заданной темы.
- Уровень детализации. Некоторые ответы могут быть формально связаны с вопросом, но при этом содержать не ту информацию, которую ожидает увидеть спрашивающий.
Методы оценки:
- ML-подход
- Можно обучить классические или нейронные модели на задаче классификации/ранжирования, чтобы определять, соответствует ли ответ заданному вопросу.
- Пример: модели семантического поиска (Sentence-BERT), которые вычисляют косинусное сходство эмбеддингов вопроса и ответа.
- LLM-подход
- Использовать саму LLM в качестве «судьи» (prompt: «Проверь, насколько ответ соответствует вопросу»).
- LLM может дать качественную вербальную оценку («Ответ на 8 из 10 соответствует вопросу») или выставить числовой балл.
Для Relevance хорошо подходят оба варианта. ML-модели эффективны в вычислительном плане и легко масштабируются. LLM подходит для более гибкой оценки тонкостей смысла, но требует большего количества ресурсов.
Пример
- Вопрос: «Объясните, почему листья меняют цвет осенью?»
2. Completeness (Полнота)
Определение
Полнота отражает, насколько всесторонне ответ освещает все аспекты, указанные или подразумеваемые в вопросе. Ответ может быть релевантен, но при этом упустить некоторые аспекты темы.
Как оценивать
- Учитывайте все подсмыслы вопроса. Часто в вопросе может быть несколько пунктов, которые следует осветить.
- Даётся ли достаточная аргументация? При необходимости приводятся примеры, методы расчёта, источники?
Методы оценки:
- ML-подход
- Можно использовать проверку на наличие ключевых пунктов (rule-based + ML).
- Если у вас есть «эталонный» ответ (Gold Standard), то сравнивать его с ответом пользователя: подсчитывать пересечение смысловых единиц или ключевых фраз.
- LLM-подход
- Спросить у модели в виде промпта: «Перечисли основные подтемы вопроса. Насколько ответ раскрывает каждую подтему?»
- Модель может подробно прокомментировать, чего в ответе не хватает.
Для Completeness ML-подходы (rule-based + классификаторы) хорошо работают, когда структура ответа предсказуема. LLM способна улавливать нюансы темы, но всё ещё может «фантазировать», если сама не обладает точной проверкой фактов.
Пример
Вопрос: «Расскажите об основных функциях операционной системы и её роли в работе компьютера.»
3. Clarity (Ясность)
Определение
Ясность означает, насколько логично, доступно и понятно сформулирован ответ. Иногда ответ может быть релевантен и полон, но из-за сложных формулировок или путаных объяснений вызывается недопонимание.
Как оценивать
- Структура и форматирование. Чёткое деление на абзацы, списки или пункты делает текст более удобным для восприятия.
- Словарный запас и стиль. Использование доступной лексики и отсутствие неоправданно сложных терминов (или объяснение таких терминов).
Методы оценки:
- ML-подход
- Метрики читаемости (Flesch-Kincaid для английского, подобные формулы для русского).
- Модели NLU (Natural Language Understanding), анализ синтаксической структуры.
- Классификация текстов по уровню сложности: обучить модель определять «ясно» или «неясно».
- LLM-подход
- Запросить у модели анализ ясности: «Оцени текст с точки зрения простоты изложения. Есть ли тяжеловесные конструкции?»
- Модель опирается на собственную языковую логику и может сразу указать, какие места сбивают с толку.
Для Clarity традиционные ML-инструменты (индексы удобочитаемости, классификаторы по уровню сложности) подойдут, когда нужно быстро «прикинуть» сложность текста. LLM способна давать более контекстные объяснения — где и что неясно.
Пример
Вопрос: «Что такое “межпроцессное взаимодействие” в операционных системах?»
4. Factual Correctness (Фактологическая корректность)
Определение
Фактологическая корректность подразумевает отсутствие в ответе ошибок в цифрах, фактах, датах, именах, формулировках законов и проч.
Как оценивать
- Проверять данные. Любые сведения, требующие точности (например, исторические даты или математические формулы), важно сверять с надёжными источниками.
- Сравнивать цифры и факты. Например, если ответ содержит статистику (численность населения, проценты), нужно убедиться, что она не противоречит общеизвестным данным.
Методы оценки:
- ML-подход
- Fact-checking системы: обученные классификаторы (ClaimBuster, FEVER), которые ищут противоречия между утверждениями и базой знаний.
- Сверка конкретных сущностей (Named Entity Recognition + сравнение с референсной базой).
- LLM-подход
- Использование LLM для поиска противоречий: «Насколько информация соответствует фактам, упомянутым в базе данных?»
- Однако сами LLM могут «галлюцинировать», поэтому лучше сочетать их с проверкой в авторитетных источниках (RAG-подход).
Для Factual Correctness более надёжны ML-системы (и внешние базы данных), потому что LLM склонны выдумывать факты. При этом LLM может выполнять первичный анализ, но итоговую проверку часто делают классические ML-методы или ручные эксперты.
Пример
Вопрос: «В каком году состоялся первый полёт человека в космос?»
5. Context Integration (Интеграция контекста)
Определение
Контекстом может быть предыдущее сообщение в диалоге, тон беседы или дополнительная информация, уже упомянутая ранее. Интеграция контекста означает способность ответа учитывать эту дополнительную информацию, а не игнорировать её.
Как оценивать
- Связь с предыдущими вопросами. Если диалог многошаговый, проверяйте, ссылается ли ответ на уже обсуждавшиеся факты.
- Учитывание специфики запроса. Иногда вопрос может касаться конкретной ситуации или примера из реальной жизни – хороший ответ должен это учитывать.
Методы оценки:
- ML-подход
- Анализ историй диалога, где каждое сообщение превращается в эмбеддинг, затем проверяем, насколько ответ связан с предыдущими репликами.
- Модели coreference resolution + intent recognition, чтобы увидеть, ссылается ли ответ на нужные детали.
- LLM-подход
- Попросить LLM описать, какие факты или детали из предыдущих сообщений она учла.
- LLM может сама «рассуждать» о соответствии ответа контексту, но иногда пропускает важные детали.
Context Integration более естественно проверяется LLM, так как ей «удобно» рассуждать о контексте в одном длинном prompt. Но ML-подход с эмбеддингами разных реплик более детерминирован и может помочь объективно проверить, действительно ли заимствована информация из контекста.
Пример
Контекст: До этого собеседник упомянул, что у него нет возможности пользоваться руками или пальцами, и ищет способы адаптированного управления компьютером.
6. Confidence (Уверенность)
Определение
Уверенность – это то, насколько ответ звучит решительно и не оставляет впечатления «угадывания» или двусмысленности без необходимости. Однако здесь важно помнить о балансе: чрезмерная самоуверенность в неверном ответе может ввести в заблуждение.
Как оценивать
- Стиль изложения. Добросовестный ответ может сопровождаться фразами вроде «Наиболее вероятно...», «Согласно текущим данным...», если информация не является на 100% достоверной.
- Обоснованность. Уверенные ответы – это не только твёрдый тон, но и логические аргументы, подтверждающие позицию.
Методы оценки:
- ML-подход
- Лексический анализ: подсчитать фразы вроде «не уверен», «может быть», «по всей видимости». Чем больше таких «неуверенных» маркеров, тем ниже оценка уверенности.
- Классификатор «уверенный ответ vs. сомневающийся ответ» на основе корпуса размеченных ответов.
- LLM-подход
- Сама LLM может проанализировать тон текста и сказать: «Похоже, модель не уверена, потому что использует слишком много оговорок».
- Но есть риск, что LLM недостаточно критична к своим собственным «топикам».
Для Confidence простая ML-модель классификации (по лингвистическим признакам) даёт быстрые числовые оценки, а LLM может расплывчато «оценивать» уверенность. Однако чрезмерная самоуверенность LLM без фактов может ввести в заблуждение, поэтому лучший вариант — комбинировать оба подхода.
Пример
Вопрос: «Почему у птиц лёгкие имеют ячеистое строение?»
7. Overall Score (Общая оценка: 0–10)
Определение
Общая оценка – это сводный показатель, отражающий уровень качества ответа по всем перечисленным критериям.
Как оценивать
- Выставление промежуточных баллов. Оцените каждый пункт отдельно по шкале (например, 0–10 или 1–5).
- Расставьте приоритеты. Некоторые критерии могут быть важнее (например, фактическая корректность часто критичнее, чем стиль).
- Сводная оценка. Суммируйте или усредните результаты, получите итоговый балл.
Методы оценки:
- ML-подход
- Система, которая на вход получает вектор метрик (предыдущих шести) и прогнозирует финальный балл (рекомендательно).
- Можно обучить регрессию (или ранжирование) по историческим данным, где человеческие эксперты выставляли итоговые оценки ответам.
- LLM-подход
- Попросить LLM самостоятельно выставить итоговую оценку «по совокупности критериев».
- Проблема в том, что LLM может смещать вес разных критериев, поэтому «объективность» такой оценки — под вопросом.
Для Overall Score обычно оптимально агрегировать результаты либо вручную (свой расчёт: среднее, сумма с весами) или обучить небольшую ML-модель, которая «смотрит» на метрики и выдаёт финальный рейтинг. LLM можно использовать для «описательной» интеграции, но числовая оценка лучше получается при объективном агрегировании.
Пример
Ответ: Чётко раскрывает тему (8/10 за релевантность), излагает её логично и полно (9/10 за полноту), содержит точные факты (9/10 за корректность), ссылается на контекст при необходимости (8/10), звучит убедительно (8/10), и общая оценка получается, допустим, 8,5 из 10.
- Метрики, которые легко формализовать и свести к числам (Relevance, Factual Correctness, Context Integration, Confidence), часто лучше оценивать c помощью ML, используя классификаторы, семантическое сходство, эмбеддинги и fact-checking инструменты.
- Метрики, которые требуют семантического понимания и более тонкого анализа текста (Clarity, Completeness, да и Relevance в сложных случаях), могут выиграть от оценки через LLM, так как большие языковые модели способны «рассуждать» о структуре и наполнении текста.
- Overall Score можно получать гибридным способом: ML-модель агрегирует численные метрики, а LLM может давать «качественное описание» сильных и слабых сторон ответа.
Таким образом, идеальный подход — это сочетание ML и LLM:
- ML даёт объективные, детерминированные числовые показатели (необходимы для автоматизации).
- LLM дополняет эту оценку семантическими комментариями (подробное описание, что именно хорошо или плохо в ответе).