Проблема выбора языковой модели для конкретной задачи

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

Открыть в Telegram Другие публикации

Автор:Nerdie

•25 апреля 2024 г.

Недавно при технической оценке проекта и подготовке предложения заказчику словила себя на мысли, что в текущей безумной гонке ИИ моделей выбрать ту самую - весьма сложно. Выбор должен быть стратегический, мы можем подобрать лучшую модель сегодня, но будет ли она лучшей для этого типа задач через 3 месяца, 6 месяцев, год? Не развалится ли случайно компания-разработчик модели, ведь это всё еще стартапы на активно развивающемся рынке со свойственной им бешеной внутренней и внешней динамикой, и будут ли они развиваться так же бодренько? Где будет меньше сюрпризов? Какая окажется наиболее ответственной и безопасной? В общем стоит большое количество вопросов, помимо качества выдачи модели.

Три аспекта, вызывающие сомнения при выборе:

1. Скорость выпуска новых моделей ⚡

Смотрите на сроки анонсов запуска в массы языковых моделей за последние недели (список не исчерпывающий):

Gemini 1.5 от Google - 15 февраля
Claude 3 от Anthropic - 4 марта
CommandR+ от Cohere - 4 апреля
Llama 3 от Meta - 18 апреля

Итого имеем мощнейшие запуски 1-2 раза в месяц. Очень много и очень быстро. Развивает fomo во всех красках.

2. Неожиданные изменения текущих интегрированных моделей 🤷🏻‍♀️

Поддержание нашего первого приложения (Pythia App Search), запущенного в конце августа 2023, требовало неоднократного изменения настроек модели (prompt, temperature, etс) без изменения самой модели. То есть уже после запуска встроенная модель без каких-либо изменений с нашей стороны просто начинала вести себя по-другому.

И это, судя по всему, свойственно всем моделям. Недавно попала в неловкую ситуацию, когда во время консультации рассказывала человеку об особенностях Gemini, пошла демонстрировать пример, а ее поведение совсем не соответствовало ожиданиям. После консультации села тестить на кейсах, опробованных мной буквально месяц назад, и, действительно, поведение сильно изменилось.

3. Стабильность компаний-разработчиков 🏗

Даже самый мощный игрок на рынке, OpenAI, в ноябре прошлого года после успешнейшего релиза ряда новых функциональностей, столкнулся с внутренней турбулентностью. Уволили Сэма Альтмана - главу компанию. На 2 дня. А потом вернули. Этот кейс плох всем: плох факт, что уволили (не смогли договориться центральной лидерской командой), плох факт, что вернули (слабый свод правил, Альтман сам об этом говорил позднее). Я не рассуждаю о том, хорошо ли, что он во главе компании. Я рассуждаю о хрупкости внутреннего устройства сильнейшего игрока на рынке. Вот тут чуть больше примеров и размышлений на тему

Вывод: кажется риски есть всегда и во всем, стоит следить за новостям, следить за инвестициями в ИИ стартапы, на старте продумывать запасной вариант и быть гибкими.

Дискуссия

Natallia Chobat

Привет! У нас в приложении тоже несколько раз происходили изменения в работе модели без нашего инпута. Например, начинали дублироваться буквы вроде «прпрриивввееттт» или ответ переставал работать, нужно было срочно переходить на более новую версию модели и или что-то обновлять. Это к ко второму пункту о хрупкости пишу:/

Apr 25, 2024

💯1

Nerdie Chat

Natallia Chobat

Точно! Мы достаточно радикальные изменения произвели повливавшие в том числе даже на логику эппа. Работа с LLM на данный момент подразумевает какой-то уровень непредсказуемости, но я вижу, что со стороны разработчиков есть большой запрос на предсказуемость выдачи модели, OpenAI над этим работает, думаю и другие будут 🙌

Apr 25, 2024

😍1💯1

Присоединиться к обсуждению →

Проблема выбора языковой модели для конкретной задачи

Три аспекта, вызывающие сомнения при выборе:

1. Скорость выпуска новых моделей ⚡

2. Неожиданные изменения текущих интегрированных моделей 🤷🏻‍♀️

3. Стабильность компаний-разработчиков 🏗

Дискуссия

Читайте так же

Про выбор языковой модели

Неделя ИИ: шорт‑лист фильмов и заметки об апдейтах

Итоги прошедшей недели