Проблема выбора языковой модели для конкретной задачи

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

языковая модельИИGemini

Недавно при технической оценке проекта и подготовке предложения заказчику словила себя на мысли, что в текущей безумной гонке ИИ моделей выбрать ту самую - весьма сложно. Выбор должен быть стратегический, мы можем подобрать лучшую модель сегодня, но будет ли она лучшей для этого типа задач через 3 месяца, 6 месяцев, год? Не развалится ли случайно компания-разработчик модели, ведь это всё еще стартапы на активно развивающемся рынке со свойственной им бешеной внутренней и внешней динамикой, и будут ли они развиваться так же бодренько? Где будет меньше сюрпризов? Какая окажется наиболее ответственной и безопасной? В общем стоит большое количество вопросов, помимо качества выдачи модели.

Три аспекта, вызывающие сомнения при выборе:

1. Скорость выпуска новых моделей

Смотрите на сроки анонсов запуска в массы языковых моделей за последние недели (список не исчерпывающий):

  • Gemini 1.5 от Google - 15 февраля
  • Claude 3 от Anthropic - 4 марта
  • CommandR+ от Cohere - 4 апреля
  • Llama 3 от Meta - 18 апреля

Итого имеем мощнейшие запуски 1-2 раза в месяц. Очень много и очень быстро. Развивает fomo во всех красках.

2. Неожиданные изменения текущих интегрированных моделей 🤷🏻‍♀️

Поддержание нашего первого приложения (Pythia App Search), запущенного в конце августа 2023, требовало неоднократного изменения настроек модели (prompt, temperature, etс) без изменения самой модели. То есть уже после запуска встроенная модель без каких-либо изменений с нашей стороны просто начинала вести себя по-другому.

И это, судя по всему, свойственно всем моделям. Недавно попала в неловкую ситуацию, когда во время консультации рассказывала человеку об особенностях Gemini, пошла демонстрировать пример, а ее поведение совсем не соответствовало ожиданиям. После консультации села тестить на кейсах, опробованных мной буквально месяц назад, и, действительно, поведение сильно изменилось.

3. Стабильность компаний-разработчиков 🏗

Даже самый мощный игрок на рынке, OpenAI, в ноябре прошлого года после успешнейшего релиза ряда новых функциональностей, столкнулся с внутренней турбулентностью. Уволили Сэма Альтмана - главу компанию. На 2 дня. А потом вернули. Этот кейс плох всем: плох факт, что уволили (не смогли договориться центральной лидерской командой), плох факт, что вернули (слабый свод правил, Альтман сам об этом говорил позднее). Я не рассуждаю о том, хорошо ли, что он во главе компании. Я рассуждаю о хрупкости внутреннего устройства сильнейшего игрока на рынке. Вот тут чуть больше примеров и размышлений на тему

Вывод: кажется риски есть всегда и во всем, стоит следить за новостям, следить за инвестициями в ИИ стартапы, на старте продумывать запасной вариант и быть гибкими.