Про выбор языковой модели

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

языковая модельGPT 5Gemini

У сообщества разработчиков часто довольно строгий ответ на вопрос “какую модель выбрать?”. Звучит он следующим образом:
тестируйте на своих данных

В целом справедливо. Но, блин, и не помогает. Особенно, когда данных у заказчика нет 😂.
Поэтому пишу этот пост, но рассчитываю на понимание разницы между интуицией, пусть и основанной на насмотренности, и проверкой на данных. Вот мои рассуждения — интуитивные.

Критерии выбора языковой модели:

1. контекстное окно

Речь как про длину контекстного окна, так и про качество работы с длинным контекстом. Детальнее тут. Это основная причина, почему я часто не рассматриваю и не рекомендую Grok и Deepseek. Первая начинает выдавать чушь при увеличении длины контекста, а у второй, в целом, довольно маленькое окошко. Ну и чушь тоже выдает при перегрузе контекстом.

  • Gemini 2.5 Flash/Pro, GPT 4.1 — 1 млн токенов
  • GPT 5 — 400 тыс токенов
  • Gemini 1.5 Pro — 2 млн токенов

2. следование инструкции

Одно дело, работать с простым запросом, где модель должна совершить какое-то одно действие, что редкость для человеческих задач. Другое, когда речь идет о цепочках рассуждений, развилках, чеклистах и пр. Для следования инструкции модель не должна быть большой, она должна быть эффективной. И, желательно, рассуждающей.

3. “эрудированность”

Следовать инструкции — классно, но иногда задаче важнее обладание более глубокой доменной экспертизой, большим пониманием предметной области, большим знанием широкого контекста. Тут, скорее, нужна большая модель — не mini-версии. Поэтому все так любили GPT 4.5 💔.

  • GPT 5, GPT 4.1, Gemini 2.5 Pro, Claude Opus 4.1

4. манера речи

Как и в жизни, качество выполненной задачи может быть не так важно, как презентация результатов. Модель может быть чертовки умна, но писать непонятно или неприятно — это было одной из множества причин нехорошего старта GPT-5. Иногда (а для бизнес-автоматизаций — часто) манера речи — не важна. Но если делаете ИИ-коуча, ассистента и пр, хочется, чтобы манеры соблюдал. А если делаете контент-продукт, хотелось бы, чтобы подстраивался под ваш tone-of-voice.

  • Claude Sonnet 4.1 — даже круче Sonnet 4.5 по ощущениям подстраивалась под манеру речи
  • GPT 4.1 / 4o — хорошо раскладывают мысли

5. содержание задачки

Самый субъективный из всех пунктов.

  • — Для кодинга большинство будут использовать GPT 5 codex, Sonnet 4.5, Gemini 2.5 pro.
  • — Задачи, связанные с поиском по интернету - Gemini 2.5 Flash/Pro.
  • — Контент-задачки: GPT 4.1, Sonnet. Итд.

6. технические характеристики

В качестве примеров:

  • — требования к высокой скорости выдачи (mini-модели, Gemini 2.5 Flash, не рассуждающие модели),
  • — минимизация галлюцинаций (GPT 5),
  • — стоимость (deepseek, mini-модели, не рассуждающие модели),
  • — структурирование вывода (из не рассуждающих точно GPT 4.1, рассуждающие - многие справятся),
  • — требования безопасности (привет опенсорсным моделям).

Вместо вывода / резюме, маленькая подсказка:

Если у вас задачки сложные, и требования к модели комплексные: нужны и следование инструкции, и эмпатичность, нужны и контекстное окно, и супер-мозги, и соответствие манере речи: ✨бьём задачку на части✨.

Какие еще критерии назовете?

Дискуссия

С
gpt 5.1 новый очень быстро выдавает, на уровне gemini flash
Nerdie
Семён
gpt 5.1 новый очень быстро выдавает, на уровне gemini flash
Да, срок годности постов про ИИ нынче - неделька😁
Присоединиться к обсуждению →