Семь ключевых метрик: как объективно оценивать ответы больших языковых моделей

Большие языковые модели, такие как GPT и другие LLM, стали невероятно популярными и полезными для самых разных сфер: от написания текстов до проведения аналитики.

Семь ключевых метрик: как объективно оценивать ответы больших языковых моделей
Краткое содержание

Однако, несмотря на их впечатляющие способности, крайне важно уметь оценивать качество генерируемых ответов. Чтобы выделить сильные и слабые стороны, мы будем опираться на семь ключевых метрик:

  1. Relevance (Релевантность)
  2. Completeness (Полнота)
  3. Clarity (Ясность)
  4. Factual Correctness (Фактическая корректность)
  5. Context Integration (Интеграция контекста)
  6. Confidence (Уверенность)
  7. Overall Score (Общая оценка, 0–10)

Рассмотрим каждую метрику по отдельности.

1. Relevance (Релевантность)

Определение

Релевантность показывает, насколько ответ соответствует заданному вопросу.

Как оценивать

  • Соответствие тематике. Вопрос может быть о математических расчётах, исторических событиях или рецептах; важно проверить, касается ли ответ именно заданной темы.
  • Уровень детализации. Некоторые ответы могут быть формально связаны с вопросом, но при этом содержать не ту информацию, которую ожидает увидеть спрашивающий.

Методы оценки:

  1. ML-подход
    • Можно обучить классические или нейронные модели на задаче классификации/ранжирования, чтобы определять, соответствует ли ответ заданному вопросу.
    • Пример: модели семантического поиска (Sentence-BERT), которые вычисляют косинусное сходство эмбеддингов вопроса и ответа.
  2. LLM-подход
    • Использовать саму LLM в качестве «судьи» (prompt: «Проверь, насколько ответ соответствует вопросу»).
    • LLM может дать качественную вербальную оценку («Ответ на 8 из 10 соответствует вопросу») или выставить числовой балл.

Для Relevance хорошо подходят оба варианта. ML-модели эффективны в вычислительном плане и легко масштабируются. LLM подходит для более гибкой оценки тонкостей смысла, но требует большего количества ресурсов.

Пример

  • Вопрос: «Объясните, почему листья меняют цвет осенью?»
💡
Хороший ответ по релевантности: Разъясняет биологические и химические процессы (разложение хлорофилла и проявление других пигментов).
💡
Плохой ответ по релевантности: Уходит в рассуждения о погоде или географии без упоминания механизмов изменения цвета листьев.

2. Completeness (Полнота)

Определение

Полнота отражает, насколько всесторонне ответ освещает все аспекты, указанные или подразумеваемые в вопросе. Ответ может быть релевантен, но при этом упустить некоторые аспекты темы.

Как оценивать

  • Учитывайте все подсмыслы вопроса. Часто в вопросе может быть несколько пунктов, которые следует осветить.
  • Даётся ли достаточная аргументация? При необходимости приводятся примеры, методы расчёта, источники?

Методы оценки:

  1. ML-подход
    • Можно использовать проверку на наличие ключевых пунктов (rule-based + ML).
    • Если у вас есть «эталонный» ответ (Gold Standard), то сравнивать его с ответом пользователя: подсчитывать пересечение смысловых единиц или ключевых фраз.
  2. LLM-подход
    • Спросить у модели в виде промпта: «Перечисли основные подтемы вопроса. Насколько ответ раскрывает каждую подтему?»
    • Модель может подробно прокомментировать, чего в ответе не хватает.

Для Completeness ML-подходы (rule-based + классификаторы) хорошо работают, когда структура ответа предсказуема. LLM способна улавливать нюансы темы, но всё ещё может «фантазировать», если сама не обладает точной проверкой фактов.

Пример

Вопрос: «Расскажите об основных функциях операционной системы и её роли в работе компьютера.»

💡
Хороший ответ по полноте: Описывает функции управления ресурсами, интерфейс с пользователем, управление файлами и процессами.
💡
Неполный ответ: Ограничивается лишь одной функцией (например, управлением памяти) и не даёт общей картины.

3. Clarity (Ясность)

Определение

Ясность означает, насколько логично, доступно и понятно сформулирован ответ. Иногда ответ может быть релевантен и полон, но из-за сложных формулировок или путаных объяснений вызывается недопонимание.

Как оценивать

  • Структура и форматирование. Чёткое деление на абзацы, списки или пункты делает текст более удобным для восприятия.
  • Словарный запас и стиль. Использование доступной лексики и отсутствие неоправданно сложных терминов (или объяснение таких терминов).

Методы оценки:

  1. ML-подход
    • Метрики читаемости (Flesch-Kincaid для английского, подобные формулы для русского).
    • Модели NLU (Natural Language Understanding), анализ синтаксической структуры.
    • Классификация текстов по уровню сложности: обучить модель определять «ясно» или «неясно».
  2. LLM-подход
    • Запросить у модели анализ ясности: «Оцени текст с точки зрения простоты изложения. Есть ли тяжеловесные конструкции?»
    • Модель опирается на собственную языковую логику и может сразу указать, какие места сбивают с толку.

Для Clarity традиционные ML-инструменты (индексы удобочитаемости, классификаторы по уровню сложности) подойдут, когда нужно быстро «прикинуть» сложность текста. LLM способна давать более контекстные объяснения — где и что неясно.

Пример

Вопрос: «Что такое “межпроцессное взаимодействие” в операционных системах?»

💡
Ясный ответ: Дает определение простыми словами, избегая лишних профессиональных терминов или расшифровывает их.
💡
Неясный ответ: Перегружен аббревиатурами и сложной технической лексикой без пояснений.

4. Factual Correctness (Фактологическая корректность)

Определение

Фактологическая корректность подразумевает отсутствие в ответе ошибок в цифрах, фактах, датах, именах, формулировках законов и проч.

Как оценивать

  • Проверять данные. Любые сведения, требующие точности (например, исторические даты или математические формулы), важно сверять с надёжными источниками.
  • Сравнивать цифры и факты. Например, если ответ содержит статистику (численность населения, проценты), нужно убедиться, что она не противоречит общеизвестным данным.

Методы оценки:

  1. ML-подход
    • Fact-checking системы: обученные классификаторы (ClaimBuster, FEVER), которые ищут противоречия между утверждениями и базой знаний.
    • Сверка конкретных сущностей (Named Entity Recognition + сравнение с референсной базой).
  2. LLM-подход
    • Использование LLM для поиска противоречий: «Насколько информация соответствует фактам, упомянутым в базе данных?»
    • Однако сами LLM могут «галлюцинировать», поэтому лучше сочетать их с проверкой в авторитетных источниках (RAG-подход).

Для Factual Correctness более надёжны ML-системы (и внешние базы данных), потому что LLM склонны выдумывать факты. При этом LLM может выполнять первичный анализ, но итоговую проверку часто делают классические ML-методы или ручные эксперты.

Пример

Вопрос: «В каком году состоялся первый полёт человека в космос?»

💡
Фактически корректный ответ: 12 апреля 1961 года (Юрий Гагарин).
💡
Ошибочный ответ: Называет другую дату или приписывает полёт другому человеку.

5. Context Integration (Интеграция контекста)

Определение

Контекстом может быть предыдущее сообщение в диалоге, тон беседы или дополнительная информация, уже упомянутая ранее. Интеграция контекста означает способность ответа учитывать эту дополнительную информацию, а не игнорировать её.

Как оценивать

  • Связь с предыдущими вопросами. Если диалог многошаговый, проверяйте, ссылается ли ответ на уже обсуждавшиеся факты.
  • Учитывание специфики запроса. Иногда вопрос может касаться конкретной ситуации или примера из реальной жизни – хороший ответ должен это учитывать.

Методы оценки:

  1. ML-подход
    • Анализ историй диалога, где каждое сообщение превращается в эмбеддинг, затем проверяем, насколько ответ связан с предыдущими репликами.
    • Модели coreference resolution + intent recognition, чтобы увидеть, ссылается ли ответ на нужные детали.
  2. LLM-подход
    • Попросить LLM описать, какие факты или детали из предыдущих сообщений она учла.
    • LLM может сама «рассуждать» о соответствии ответа контексту, но иногда пропускает важные детали.

Context Integration более естественно проверяется LLM, так как ей «удобно» рассуждать о контексте в одном длинном prompt. Но ML-подход с эмбеддингами разных реплик более детерминирован и может помочь объективно проверить, действительно ли заимствована информация из контекста.

Пример

Контекст: До этого собеседник упомянул, что у него нет возможности пользоваться руками или пальцами, и ищет способы адаптированного управления компьютером.

💡
Хороший ответ с учётом контекста: Предложит голосовые интерфейсы, специализированные контроллеры, программы для распознавания речи.
💡
Ответ без интеграции контекста: Даст стандартные советы по работе с клавиатурой и мышью, игнорируя особые потребности пользователя.

6. Confidence (Уверенность)

Определение

Уверенность – это то, насколько ответ звучит решительно и не оставляет впечатления «угадывания» или двусмысленности без необходимости. Однако здесь важно помнить о балансе: чрезмерная самоуверенность в неверном ответе может ввести в заблуждение.

Как оценивать

  • Стиль изложения. Добросовестный ответ может сопровождаться фразами вроде «Наиболее вероятно...», «Согласно текущим данным...», если информация не является на 100% достоверной.
  • Обоснованность. Уверенные ответы – это не только твёрдый тон, но и логические аргументы, подтверждающие позицию.

Методы оценки:

  1. ML-подход
    • Лексический анализ: подсчитать фразы вроде «не уверен», «может быть», «по всей видимости». Чем больше таких «неуверенных» маркеров, тем ниже оценка уверенности.
    • Классификатор «уверенный ответ vs. сомневающийся ответ» на основе корпуса размеченных ответов.
  2. LLM-подход
    • Сама LLM может проанализировать тон текста и сказать: «Похоже, модель не уверена, потому что использует слишком много оговорок».
    • Но есть риск, что LLM недостаточно критична к своим собственным «топикам».

Для Confidence простая ML-модель классификации (по лингвистическим признакам) даёт быстрые числовые оценки, а LLM может расплывчато «оценивать» уверенность. Однако чрезмерная самоуверенность LLM без фактов может ввести в заблуждение, поэтому лучший вариант — комбинировать оба подхода.

Пример

Вопрос: «Почему у птиц лёгкие имеют ячеистое строение?»

💡
Уверенный ответ: Даёт понятное биологическое обоснование, объясняет функцию ячеистого строения для более эффективного газообмена.
💡
Ответ с недостаточной уверенностью: «Возможно, это связано с лучшим дыханием, но я не совсем уверен... Может быть, есть какие-то другие причины.»

7. Overall Score (Общая оценка: 0–10)

Определение

Общая оценка – это сводный показатель, отражающий уровень качества ответа по всем перечисленным критериям.

Как оценивать

  1. Выставление промежуточных баллов. Оцените каждый пункт отдельно по шкале (например, 0–10 или 1–5).
  2. Расставьте приоритеты. Некоторые критерии могут быть важнее (например, фактическая корректность часто критичнее, чем стиль).
  3. Сводная оценка. Суммируйте или усредните результаты, получите итоговый балл.

Методы оценки:

  1. ML-подход
    • Система, которая на вход получает вектор метрик (предыдущих шести) и прогнозирует финальный балл (рекомендательно).
    • Можно обучить регрессию (или ранжирование) по историческим данным, где человеческие эксперты выставляли итоговые оценки ответам.
  2. LLM-подход
    • Попросить LLM самостоятельно выставить итоговую оценку «по совокупности критериев».
    • Проблема в том, что LLM может смещать вес разных критериев, поэтому «объективность» такой оценки — под вопросом.

Для Overall Score обычно оптимально агрегировать результаты либо вручную (свой расчёт: среднее, сумма с весами) или обучить небольшую ML-модель, которая «смотрит» на метрики и выдаёт финальный рейтинг. LLM можно использовать для «описательной» интеграции, но числовая оценка лучше получается при объективном агрегировании.

Пример

Ответ: Чётко раскрывает тему (8/10 за релевантность), излагает её логично и полно (9/10 за полноту), содержит точные факты (9/10 за корректность), ссылается на контекст при необходимости (8/10), звучит убедительно (8/10), и общая оценка получается, допустим, 8,5 из 10.

  • Метрики, которые легко формализовать и свести к числам (Relevance, Factual Correctness, Context Integration, Confidence), часто лучше оценивать c помощью ML, используя классификаторы, семантическое сходство, эмбеддинги и fact-checking инструменты.
  • Метрики, которые требуют семантического понимания и более тонкого анализа текста (Clarity, Completeness, да и Relevance в сложных случаях), могут выиграть от оценки через LLM, так как большие языковые модели способны «рассуждать» о структуре и наполнении текста.
  • Overall Score можно получать гибридным способом: ML-модель агрегирует численные метрики, а LLM может давать «качественное описание» сильных и слабых сторон ответа.

Таким образом, идеальный подход — это сочетание ML и LLM:

  1. ML даёт объективные, детерминированные числовые показатели (необходимы для автоматизации).
  2. LLM дополняет эту оценку семантическими комментариями (подробное описание, что именно хорошо или плохо в ответе).
Nerd IT 🌀 ML, DS, ANN, GPT
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных и пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

Подписаться на новости Nerd IT

Не пропустите последние выпуски. Зарегистрируйтесь сейчас, чтобы получить полный доступ к статьям.
jamie@example.com
Подписаться