Когда GPT-4 обогнал GPT-3, а Llama 70B показала результаты лучше версии на 13B, казалось очевидным: чем больше параметров, тем умнее модель. Но всё не так просто.
Что такое параметры модели
Параметры — это настраиваемые веса нейронной сети, которые она корректирует в процессе обучения. Если упростить: это объём "знаний", которые модель может запомнить и использовать.
Модель на 7B параметров содержит 7 миллиардов таких весов
Модель на 175B — соответственно, в 25 раз больше
Зависимость есть, но она нелинейная 📊
Исследования показывают:
- До определённого порога увеличение параметров даёт заметный рост качества
- После — эффект замедляется, а иногда модель начинает "переобучаться"
- Качество данных для обучения важнее количества параметров
Пример: модель Phi-2 от Microsoft с 2.7B параметров обыгрывает некоторые решения на 13B благодаря качественному датасету.
Что влияет на "интеллект" кроме размера 🎯
- Архитектура модели
Transformer, Mamba, гибридные решения — структура связей между нейронами критична - Данные для обучения
Модель, обученная на качественных текстах, превзойдёт "раздутую" версию на мусорных данных - Методы дообучения
RLHF, DPO и другие техники выравнивания могут кардинально улучшить результат без роста параметров - Контекстное окно
Способность удерживать длинный контекст важнее для практических задач - Квантизация и оптимизация
Сжатая 70B модель может работать эффективнее полноразмерной 30B
Практический вывод для пользователя 💡
Выбирая ИИ-модель, смотрите не на цифры параметров, а на:
- Бенчмарки по вашим задачам (код, тексты, анализ)
- Скорость работы и доступность
- Соотношение качество/ресурсы
- Реальные отзывы пользователей
Модель на 13B с хорошей оптимизацией часто практичнее монстра на 180B, который требует серверную инфраструктуру.
Будущее — не в размере, а в эффективности ⚡️
Тренд индустрии смещается к MoE-архитектурам (Mixture of Experts), где активируется только часть параметров, и дистилляции — переносу знаний больших моделей в компактные.
Результат: модели умнеют, но становятся доступнее и быстрее.
Хотите быть в курсе прорывов в ИИ?
Посмотрите нашу подборку лучших каналов про искусственный интеллект — там разбирают новые модели, делятся промптами и следят за трендами 🤖