Насколько хорошо языковые модели прогнозируют будущее

языковые моделиLLMпрогнозы

Насколько хорошо языковые модели прогнозируют будущее

Насколько хорошо языковые модели прогнозируют будущее (FutureX) FutureX проанализировали прогнозы 25 языковых моделей с 20 июля по 3 августа 2025 года. Ответы нейросетей сравнивали не только между собой, но и с ответами 40 экспертов Исследователи отобрали 195 сайтов и при помощи собственной LLM ежедневно извлекали оттуда события и факты. После фильтрации событий (например, субъективных) нейросетям задавали вопросы четырёх уровней сложности: 1. базовый — закрытые вопросы, мало вариантов ответов 2. широкий поиск — закрытые вопросы, много вариантов ответов 3. глубокий поиск — открытые вопросы, низкая волатильность 4. супер-агент — открытые вопросы, высокая волатильность На графике — получившийся рейтинг LLM. В лидерах Grok-4, две модели от OpenAI и Gemini-2.5-Pro Главные выводы из исследования: — модели с поиском и рассуждением на уровнях посложнее показывали результаты лучше, чем базовые модели — в финансовых вопросах по S&P500 лучшие модели получили больше баллов, чем аналитики Уолл-стрит, в 33-37% случае — на первом и втором уровнях сложности Grok-4 догонял или перегонял людей Полный текст исследования Другие наши публикации о том, как ИИ проходят тесты: — Как большие языковые модели проходят тест на IQРезультаты решения теста ARC Challenge нейросетями, 2019–2025Политическая ориентация 24 крупнейших языковых моделейКак хорошо справляются с тестами DeepSeek-R1 и ChatGPT o1
Столбчатая диаграмма рейтинга языковых моделей по прогнозам: столбцы разной высоты и подписи моделей, стрелки и цветовые метки.
График рейтинга LLM по исследованию FutureX