Про выбор языковой модели

У сообщества разработчиков часто довольно строгий ответ на вопрос “какую модель выбрать?”. Звучит он следующим образом:
тестируйте на своих данных

В целом справедливо. Но, блин, и не помогает. Особенно, когда данных у заказчика нет 😂.
Поэтому пишу этот пост, но рассчитываю на понимание разницы между интуицией, пусть и основанной на насмотренности, и проверкой на данных. Вот мои рассуждения — интуитивные.

Критерии выбора языковой модели:

1. контекстное окно

Речь как про длину контекстного окна, так и про качество работы с длинным контекстом. Детальнее тут. Это основная причина, почему я часто не рассматриваю и не рекомендую Grok и Deepseek. Первая начинает выдавать чушь при увеличении длины контекста, а у второй, в целом, довольно маленькое окошко. Ну и чушь тоже выдает при перегрузе контекстом.

— Gemini 2.5 Flash/Pro, GPT 4.1 — 1 млн токенов
— GPT 5 — 400 тыс токенов
— Gemini 1.5 Pro — 2 млн токенов

2. следование инструкции

Одно дело, работать с простым запросом, где модель должна совершить какое-то одно действие, что редкость для человеческих задач. Другое, когда речь идет о цепочках рассуждений, развилках, чеклистах и пр. Для следования инструкции модель не должна быть большой, она должна быть эффективной. И, желательно, рассуждающей.

— GPT 5-mini - фаворит

3. “эрудированность”

Следовать инструкции — классно, но иногда задаче важнее обладание более глубокой доменной экспертизой, большим пониманием предметной области, большим знанием широкого контекста. Тут, скорее, нужна большая модель — не mini-версии. Поэтому все так любили GPT 4.5 💔.

— GPT 5, GPT 4.1, Gemini 2.5 Pro, Claude Opus 4.1

4. манера речи

Как и в жизни, качество выполненной задачи может быть не так важно, как презентация результатов. Модель может быть чертовки умна, но писать непонятно или неприятно — это было одной из множества причин нехорошего старта GPT-5. Иногда (а для бизнес-автоматизаций — часто) манера речи — не важна. Но если делаете ИИ-коуча, ассистента и пр, хочется, чтобы манеры соблюдал. А если делаете контент-продукт, хотелось бы, чтобы подстраивался под ваш tone-of-voice.

— Claude Sonnet 4.1 — даже круче Sonnet 4.5 по ощущениям подстраивалась под манеру речи
— GPT 4.1 / 4o — хорошо раскладывают мысли

5. содержание задачки

Самый субъективный из всех пунктов.

— Для кодинга большинство будут использовать GPT 5 codex, Sonnet 4.5, Gemini 2.5 pro.
— Задачи, связанные с поиском по интернету - Gemini 2.5 Flash/Pro.
— Контент-задачки: GPT 4.1, Sonnet. Итд.

6. технические характеристики

В качестве примеров:

— требования к высокой скорости выдачи (mini-модели, Gemini 2.5 Flash, не рассуждающие модели),
— минимизация галлюцинаций (GPT 5),
— стоимость (deepseek, mini-модели, не рассуждающие модели),
— структурирование вывода (из не рассуждающих точно GPT 4.1, рассуждающие - многие справятся),
— требования безопасности (привет опенсорсным моделям).

Вместо вывода / резюме, маленькая подсказка:

Если у вас задачки сложные, и требования к модели комплексные: нужны и следование инструкции, и эмпатичность, нужны и контекстное окно, и супер-мозги, и соответствие манере речи: ✨бьём задачку на части✨.

Какие еще критерии назовете?

Про выбор языковой модели

Критерии выбора языковой модели:

1. контекстное окно

2. следование инструкции

3. “эрудированность”

4. манера речи

5. содержание задачки

6. технические характеристики

Вместо вывода / резюме, маленькая подсказка:

Дискуссия

Читайте так же

Анализ UI с помощью claude chrome extension

Сделала сайт-визитку за день: заметки из процесса

Проблема выбора языковой модели для конкретной задачи