Сколько занимает настройка ИИ при разработке?

Сколько занимает настройка ИИ при разработке?

Веду разработку на весьма непростом проекте. Тут от LLM требуется и математика, и работа с большим контекстом, и скорость. Я пересмотрела архитектуру уже 4 раза, и вот последний результат: процент ошибки - 15%. То есть, результат - неудовлетворительный.

Разработка на базе больших языковых моделей - это очень итеративный процесс. Если требуется что-то немножечко сложнее, чем генерация контента для соц. сетей, саммари разного рода или реструктурирование текста, если требуется подключение своих «знаний», цепочка коммуникации или очень высокая точность, то при разработке мы ступаем на землю экспериментов. Сложно сказать, как модель справится с конкретной бизнес-задачей, где требуется предсказуемость. Как в таких условиях управлять ожиданиями заказчика по срокам?

В этом проекте моя первая интуиция предостерегала, что модель не справится с математикой. Но нет, текущие модели весьма себе неплохо производят простые математические операции. Модель спотыкалась на других вещах.

* fun fact - модель чаще ошибалась в математике с code interpreter, чем без него.

Что было сделано: сначала я попробовала сделать простое решение, потом решение сложнее, потом решение еще сложнее, потом снова легкое, но с другой моделью. В процессе разработки подключила RAG, structured output, сделала двойное сальто в воздухе и увеличила длину контекста.

Какие были результаты: сначала решение не работало, затем работало плохо, затем работало долго и вот, наконец модель ошибается в 15% случаев при удовлетворительной скорости работы (протестировано на 100+ запросах). 15% означает заход на новую итерацию. При этом думалось мне, что разработка завершится две недели назад.

Отвечая на вопрос, как управлять ожиданиями заказчиков - я не знаю. Пост писала скорее ~~поныть~~ поделиться особенностями разработки на LLM. Обычно я в начале проекта проговариваю, что возможны непредвиденные обстоятельства разного рода, что LLM имеет ограничения итд.

Но дилемма: если вгрузить в заказчика всю сложность на старте, он может передумать делать разработку, либо передумать делать её с тобой; если не вгружать, то рискуем нарваться на агрессию приблизительно на третьей итерации.

Продолжение следует... (после теста с новой архитектурой)