Проблема выбора языковой модели для конкретной задачи

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

языковая модельИИGemini

Недавно при технической оценке проекта и подготовке предложения заказчику словила себя на мысли, что в текущей безумной гонке ИИ моделей выбрать ту самую - весьма сложно. Выбор должен быть стратегический, мы можем подобрать лучшую модель сегодня, но будет ли она лучшей для этого типа задач через 3 месяца, 6 месяцев, год? Не развалится ли случайно компания-разработчик модели, ведь это всё еще стартапы на активно развивающемся рынке со свойственной им бешеной внутренней и внешней динамикой, и будут ли они развиваться так же бодренько? Где будет меньше сюрпризов? Какая окажется наиболее ответственной и безопасной? В общем стоит большое количество вопросов, помимо качества выдачи модели.

Три аспекта, вызывающие сомнения при выборе:

1. Скорость выпуска новых моделей

Смотрите на сроки анонсов запуска в массы языковых моделей за последние недели (список не исчерпывающий):

  • Gemini 1.5 от Google - 15 февраля
  • Claude 3 от Anthropic - 4 марта
  • CommandR+ от Cohere - 4 апреля
  • Llama 3 от Meta - 18 апреля

Итого имеем мощнейшие запуски 1-2 раза в месяц. Очень много и очень быстро. Развивает fomo во всех красках.

2. Неожиданные изменения текущих интегрированных моделей 🤷🏻‍♀️

Поддержание нашего первого приложения (Pythia App Search), запущенного в конце августа 2023, требовало неоднократного изменения настроек модели (prompt, temperature, etс) без изменения самой модели. То есть уже после запуска встроенная модель без каких-либо изменений с нашей стороны просто начинала вести себя по-другому.

И это, судя по всему, свойственно всем моделям. Недавно попала в неловкую ситуацию, когда во время консультации рассказывала человеку об особенностях Gemini, пошла демонстрировать пример, а ее поведение совсем не соответствовало ожиданиям. После консультации села тестить на кейсах, опробованных мной буквально месяц назад, и, действительно, поведение сильно изменилось.

3. Стабильность компаний-разработчиков 🏗

Даже самый мощный игрок на рынке, OpenAI, в ноябре прошлого года после успешнейшего релиза ряда новых функциональностей, столкнулся с внутренней турбулентностью. Уволили Сэма Альтмана - главу компанию. На 2 дня. А потом вернули. Этот кейс плох всем: плох факт, что уволили (не смогли договориться центральной лидерской командой), плох факт, что вернули (слабый свод правил, Альтман сам об этом говорил позднее). Я не рассуждаю о том, хорошо ли, что он во главе компании. Я рассуждаю о хрупкости внутреннего устройства сильнейшего игрока на рынке. Вот тут чуть больше примеров и размышлений на тему

Вывод: кажется риски есть всегда и во всем, стоит следить за новостям, следить за инвестициями в ИИ стартапы, на старте продумывать запасной вариант и быть гибкими.

Дискуссия

Natallia Chobat
Привет! У нас в приложении тоже несколько раз происходили изменения в работе модели без нашего инпута. Например, начинали дублироваться буквы вроде «прпрриивввееттт» или ответ переставал работать, нужно было срочно переходить на более новую версию модели и или что-то обновлять. Это к ко второму пункту о хрупкости пишу:/
Nerdie Chat
Natallia Chobat
Привет! У нас в приложении тоже несколько раз происходили изменения в работе модели без нашего инпута. Например, начинали дублироваться буквы вроде «прпрриивввееттт» или ответ переставал работать, нужно было срочно переходить на более новую версию модели и…
Точно! Мы достаточно радикальные изменения произвели повливавшие в том числе даже на логику эппа. Работа с LLM на данный момент подразумевает какой-то уровень непредсказуемости, но я вижу, что со стороны разработчиков есть большой запрос на предсказуемость выдачи модели, OpenAI над этим работает, думаю и другие будут 🙌
Присоединиться к обсуждению →

Читайте так же