Насколько хорошо языковые модели прогнозируют будущее

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

языковые моделиFutureXпрогнозы

FutureX проанализировали прогнозы 25 языковых моделей с 20 июля по 3 августа 2025 года. Ответы нейросетей сравнивали не только между собой, но и с ответами 40 экспертов

Исследователи отобрали 195 сайтов и при помощи собственной LLM ежедневно извлекали оттуда события и факты. После фильтрации событий (например, субъективных) нейросетям задавали вопросы четырёх уровней сложности:

  1. базовый — закрытые вопросы, мало вариантов ответов
  2. широкий поиск — закрытые вопросы, много вариантов ответов
  3. глубокий поиск — открытые вопросы, низкая волатильность
  4. супер-агент — открытые вопросы, высокая волатильность

На графике — получившийся рейтинг LLM. В лидерах Grok-4, две модели от OpenAI и Gemini-2.5-Pro

Главные выводы из исследования:

  • модели с поиском и рассуждением на уровнях посложнее показывали результаты лучше, чем базовые модели
  • в финансовых вопросах по S&P500 лучшие модели получили больше баллов, чем аналитики Уолл-стрит, в 33-37% случае
  • на первом и втором уровнях сложности Grok-4 догонял или перегонял людей

Полный текст исследования

Другие наши публикации о том, как ИИ проходят тесты:

График рейтинга 25 языковых моделей по точности прогнозов из исследования FutureX; лидерами Grok‑4, модели OpenAI и Gemini‑2.5‑Pro.
Рейтинг 25 LLM по прогнозам (исследование FutureX).

Дискуссия

Elena Egorova
Но лучше этим не баловаться, у меня началась новая паничка, когда я попросила предсказать следующие войны
Aleksandr Kudryavtsev
Может быть это график совпадения прогнозов языковых моделей с мнениями сорока экспертов?
Присоединиться к обсуждению →