Когда дообучение модели завершено, главный вопрос не в том, получилось ли обучить, а в том, стало ли лучше для вашей задачи. Проверять это “на глаз” опасно: отдельные удачные ответы не равны стабильному качеству. Поэтому fine-tuning оценивают через метрики и тестовые сценарии.
Начните с правильного тестового набора
Оценка имеет смысл только на данных, которых модель не видела при обучении. Обычно датасет делят на:
- — train — для обучения
- — validation — для настройки
- — test — для финальной проверки
Если тест пересекается с обучающими примерами, метрики будут завышены.
Выбирайте метрику под тип задачи
Нет одной универсальной метрики для всех случаев.
Для классификации подойдут:
- — Accuracy — доля правильных ответов
- — Precision — насколько точны положительные предсказания
- — Recall — сколько нужных объектов модель нашла
- — F1-score — баланс precision и recall
Например, если модель размечает токсичные сообщения, accuracy может быть высокой даже при плохом качестве, если токсичных примеров мало. В таких задачах важнее смотреть на F1, precision и recall.
Для генерации текста используют:
- — BLEU — совпадение с эталонным текстом
- — ROUGE — полнота совпадения, часто для суммаризации
- — BERTScore — смысловое сходство, а не только совпадение слов
Но для LLM этих метрик часто недостаточно: модель может дать хороший ответ другими словами и получить заниженную оценку.
Смотрите не только на loss
Падение training loss — это нормально, но само по себе не доказывает улучшение.
Важно сравнивать:
- — training loss
- — validation loss
Если training loss падает, а validation loss растет — это признак переобучения. Модель запомнила тренировочные примеры, но хуже работает на новых данных.
Добавьте task-based evaluation
Самый полезный уровень оценки — метрики, связанные с бизнес-задачей. Например:
- — процент корректно заполненных полей
- — доля ответов в нужном формате
- — снижение числа ручных правок
- — скорость обработки запросов оператором после ответа модели
Именно такие метрики показывают практическую пользу fine-tuning.
Проводите сравнение с baseline
Нельзя оценивать fine-tuning в вакууме. Сравнивайте модель:
- — с базовой версией без дообучения
- — с предыдущим fine-tuned вариантом
- — с простым prompt engineering
Иногда хороший промпт дает почти тот же результат, что и дорогое дообучение.
Используйте ручную экспертную оценку
Для сложных задач — диалоги, поддержка, юридические или медицинские тексты — автоматических метрик мало. Нужна проверка по критериям:
- — точность
- — полнота
- — стиль
- — безопасность
- — соответствие инструкции
Лучше, если оценка идет по шкале и на слепой выборке, без знания, какая модель дала ответ.
Что в итоге считать хорошим результатом? ✅
Хороший fine-tuning — это когда:
- — метрики на test выше baseline
- — нет признаков переобучения
- — качество стабильно на разных типах запросов
- — модель решает задачу лучше в реальном сценарии, а не только в таблице
Метрики — это не формальность, а способ понять, окупается ли дообучение вообще. Без них fine-tuning легко превращается в красивый, но дорогой эксперимент.
Если хотите, могу следующим постом сделать шпаргалку: какие метрики выбирать для разных задач fine-tuning. А пока загляните в нашу подборку каналов про ИИ — там много практики без воды 🚀