У сообщества разработчиков часто довольно строгий ответ на вопрос “какую модель выбрать?”. Звучит он следующим образом:
тестируйте на своих данных
В целом справедливо. Но, блин, и не помогает. Особенно, когда данных у заказчика нет 😂.
Поэтому пишу этот пост, но рассчитываю на понимание разницы между интуицией, пусть и основанной на насмотренности, и проверкой на данных. Вот мои рассуждения — интуитивные.
Критерии выбора языковой модели:
1. контекстное окно
Речь как про длину контекстного окна, так и про качество работы с длинным контекстом. Детальнее тут. Это основная причина, почему я часто не рассматриваю и не рекомендую Grok и Deepseek. Первая начинает выдавать чушь при увеличении длины контекста, а у второй, в целом, довольно маленькое окошко. Ну и чушь тоже выдает при перегрузе контекстом.
- — Gemini 2.5 Flash/Pro, GPT 4.1 — 1 млн токенов
- — GPT 5 — 400 тыс токенов
- — Gemini 1.5 Pro — 2 млн токенов
2. следование инструкции
Одно дело, работать с простым запросом, где модель должна совершить какое-то одно действие, что редкость для человеческих задач. Другое, когда речь идет о цепочках рассуждений, развилках, чеклистах и пр. Для следования инструкции модель не должна быть большой, она должна быть эффективной. И, желательно, рассуждающей.
- — GPT 5-mini - фаворит
3. “эрудированность”
Следовать инструкции — классно, но иногда задаче важнее обладание более глубокой доменной экспертизой, большим пониманием предметной области, большим знанием широкого контекста. Тут, скорее, нужна большая модель — не mini-версии. Поэтому все так любили GPT 4.5 💔.
- — GPT 5, GPT 4.1, Gemini 2.5 Pro, Claude Opus 4.1
4. манера речи
Как и в жизни, качество выполненной задачи может быть не так важно, как презентация результатов. Модель может быть чертовки умна, но писать непонятно или неприятно — это было одной из множества причин нехорошего старта GPT-5. Иногда (а для бизнес-автоматизаций — часто) манера речи — не важна. Но если делаете ИИ-коуча, ассистента и пр, хочется, чтобы манеры соблюдал. А если делаете контент-продукт, хотелось бы, чтобы подстраивался под ваш tone-of-voice.
- — Claude Sonnet 4.1 — даже круче Sonnet 4.5 по ощущениям подстраивалась под манеру речи
- — GPT 4.1 / 4o — хорошо раскладывают мысли
5. содержание задачки
Самый субъективный из всех пунктов.
- — Для кодинга большинство будут использовать GPT 5 codex, Sonnet 4.5, Gemini 2.5 pro.
- — Задачи, связанные с поиском по интернету - Gemini 2.5 Flash/Pro.
- — Контент-задачки: GPT 4.1, Sonnet. Итд.
6. технические характеристики
В качестве примеров:
- — требования к высокой скорости выдачи (mini-модели, Gemini 2.5 Flash, не рассуждающие модели),
- — минимизация галлюцинаций (GPT 5),
- — стоимость (deepseek, mini-модели, не рассуждающие модели),
- — структурирование вывода (из не рассуждающих точно GPT 4.1, рассуждающие - многие справятся),
- — требования безопасности (привет опенсорсным моделям).
Вместо вывода / резюме, маленькая подсказка:
Если у вас задачки сложные, и требования к модели комплексные: нужны и следование инструкции, и эмпатичность, нужны и контекстное окно, и супер-мозги, и соответствие манере речи: ✨бьём задачку на части✨.
Какие еще критерии назовете?
Дискуссия