Когда модель генерирует текст, главный вопрос — насколько он хорош. Для этого в NLP используют автоматические метрики, которые сравнивают ответ модели с эталонным текстом. Самые известные: BLEU, ROUGE и BERTScore.
• BLEU
Метрика из мира машинного перевода. Она измеряет, насколько слова и фразы в ответе модели совпадают с референсом.
Как работает:
- считает совпадения по n-граммам — словам, биграммам, триграммам;
- штрафует слишком короткие ответы;
- итоговый score обычно от 0 до 1 или от 0 до 100.
Где полезна:
- машинный перевод;
- задачи, где важна близость формулировки к эталону.
Минусы:
- плохо понимает смысл;
- может занизить оценку хорошему ответу, если он перефразирован;
- чувствительна к порядку слов.
• ROUGE
Чаще применяется для оценки суммаризации — автоматических кратких пересказов текста 📝
Основные варианты:
- ROUGE-N — пересечение n-грамм;
- ROUGE-L — учитывает самую длинную общую подпоследовательность;
- ROUGE-1/2 чаще всего используют в статьях и бенчмарках.
Плюсы:
- хорошо показывает, насколько summary покрывает ключевые слова и фразы оригинала;
- проста для интерпретации.
Минусы:
- как и BLEU, не всегда улавливает смысл;
- не различает удачное перефразирование и непопадание.
• BERTScore
Более современная метрика, которая использует эмбеддинги трансформеров. Она сравнивает тексты не только по словам, но и по семантической близости 🧠
Как работает:
- каждое слово превращается в вектор через BERT-подобную модель;
- затем считается, насколько слова в ответе семантически близки словам в эталоне;
- обычно смотрят precision, recall и F1.
Плюсы:
- лучше оценивает перефразированные ответы;
- ближе к человеческому восприятию качества;
- полезна для генерации текста, QA, суммаризации.
Минусы:
- сложнее и тяжелее по вычислениям;
- результат зависит от выбранной языковой модели;
- не всегда идеально отражает фактическую точность.
Что выбрать? ⚙️
- BLEU — если оцениваете перевод или шаблонную генерацию;
- ROUGE — если работаете с суммаризацией;
- BERTScore — если важен смысл, а не буквальное совпадение.
Важно: одной метрики почти всегда недостаточно. На практике используют связку:
- автоматические метрики;
- human evaluation;
- task-specific checks — например, factuality, toxicity, relevance.
Автоматическая оценка удобна для экспериментов и A/B-тестов, но она не заменяет экспертную проверку. Высокий BLEU или ROUGE ещё не гарантирует, что текст полезный, точный и естественный для пользователя ✅
👀 Ниже стоит посмотреть подборку каналов про IT — там много полезного про NLP, ML и практику работы с моделями.