Какой табличный формат LLM понимают лучше всего?

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

markdown-kvcsvllm

Все уже знают, что от промпта и контекста зависит буквально всё — от точности до адекватности ответа. Но вот вопрос: а влияет ли на результат формат, в котором вы общаетесь с LLM? Как оказалось — ещё как!

Разница в точности между форматами может достигать 16 процентных пунктов. То есть выбор между CSV, JSON или Markdown — это не мелочь, а реальный фактор, который решает, поймёт ли модель ваши данные и насколько хорошо.

Исследователи прогнали через GPT-4.1-nano 11 популярных форматов — от JSON и YAML до HTML и Markdown-таблиц. Модель должна была отвечать на вопросы по данным о тысячах «сотрудников». И знаете что? Лучше всех справился формат Markdown-KV (ключ-значение: name: Alice), выдав 60,7% точности. А вот привычный CSV уныло замыкал таблицу с 44,3%.

Чем богаче контекст и структура, тем легче LLM понять, что к чему. Но — за всё приходится платить. Тот же Markdown-KV «съедает» в 2,7 раза больше токенов, чем CSV. То есть точность растёт, а чек за inference — вместе с ней. Вечная дилемма: либо дешево, либо круто)

Итого:

  • Хотите максимум точности — берите Markdown-KV.
  • Нужен баланс читаемости и цены — Markdown-таблицы.
  • Используете CSV или JSONL по умолчанию? Возможно, прямо сейчас теряете проценты качества на ровном месте.

Источник

@ai_for_devs

Столбчатая диаграмма, сравнивающая точность LLM по форматам ввода (Markdown-KV, JSON, YAML, HTML, CSV и др.) в задаче на данные о сотрудниках.
Сравнение точности LLM по форматам ввода: Markdown-KV лидирует, CSV — аутсайдер.

Читайте так же