Как хорошо справляются с тестами DeepSeek-R1 и ChatGPT o1

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

Открыть в Telegram Другие публикации

Автор:Рациональные числа

•11 февраля 2025 г.

deepseek-r1ChatGPT o1Nvidia

В конце января 2025 года китайская компания DeepSeek выпустила свою языковую модель DeepSeek-R1 с открытым исходным кодом, которая превосходит o1 от OpenAI в некоторых тестах. За выходом этой модели последовало падение стоимости акций на американском фондовом рынке примерно на триллион долларов. Сильнее всего пострадала компания Nvidia — её капитализация за день упала на 17% или почти 620 миллиардов долларов

На картинке — результаты прохождения моделями тестов по математике, естественным наукам, английскому языку и программированию

Ещё мы писали про возможности и влияние ИИ:

Диаграмма сравнения DeepSeek‑R1 (синий) и OpenAI o1 (чёрный): результаты по математике, наукам, английскому и программированию. — График процентильных результатов DeepSeek‑R1 и ChatGPT o1 по шести тестам (AIME, Codeforces, GPQA, MATH‑500, MMLU, SWE‑bench).

Дискуссия

plaksivaya_tryapka

Evho 🇺🇦

Никогда не понимал, откуда для R1 взяли эти крутые цифры. Я активно использовал её последние пару недель (язык промтов: английский) и прямо ощущал насколько он глупее чем ЧатГПТ, а тем более глупее чем Клауд.аи (соннет). Его уносит намного чаще, речь еще менее…

На каком языке пробовали?

Feb 11

Evho 🇺🇦

plaksivaya_tryapka

На каком языке пробовали?

(язык промтов: английский)

Feb 11

👍1

plaksivaya_tryapka

Evho 🇺🇦

У кого-то есть иной экспириенс?

Я лично очень немного пробовал (сайт лежит, в приложении урезанная версия), поэтому сложно что-то сказать. Как вариант: практическое пользование != тесты.

Feb 11

👍2

Evho 🇺🇦

Тюнили хорошо проходить тесты

Feb 11

👍1

Алексей

Evho 🇺🇦

Качал дистиляты, запускал локально - галицинации постоянно, в прошлом году ещё форсили deepseek coder - локальный слабо очень, практически не пользовался. По R1 такое ощущение что тупо скормили весь интернет и на этом обучение закончилось. Никакого файнтюна не было.

Feb 11

👍2

plaksivaya_tryapka

Тюнили хорошо проходить тесты

Ключевое отличие DeepSeek как раз в том, что её не тюнили, она сама тюнилась. Поэтому так много технического хайпа про неё, что не пришлось вручную создавать датасет в миллионы примеров.

Feb 11

plaksivaya_tryapka

Сама тюнилась по ревордам которые тюнили проходить хорошо тесты H(R(N(D))) Human Reward Neural Network Data

Feb 11

Deleted Account

Про восстановления на площади Тяньаньмэнь тупит, не даёт ответа

Feb 11

Deleted Account

Восстание

Feb 11

цифровой самурай

Deleted Account

Про восстановления на площади Тяньаньмэнь тупит, не даёт ответа

судя по опечатке, этот коммент тоже писал DeepSeek

Feb 11

🤣3

Присоединиться к обсуждению →

Читайте так же

30 янв. 2025 г.·искусственный интеллект

Ресурсы для обучения крупных моделей ИИ, 1950–2024

Данные Our World in Data: параметры, объёмы данных и вычислительные ресурсы, затраченные на обучение крупных моделей ИИ (логарифмические шкалы, 1950–2024).

Читать публикацию

11 апр. 2025 г.·энергия

Сколько энергии тратит языковая модель на одного человека

Аналитика: при 100 сообщениях в день LLM тратит ≈7,2 кВт⋅ч в год; сравнение с поездкой на 10 км, пятью душами и двумя ваннами.

Читать публикацию

8 мая 2025 г.·ии-патенты

Распределение ИИ‑патентов по странам и регионам, 2010–2023

Доли ИИ‑патентов по Китаю, остальной Азии, США, Европе и остальному миру по данным Visual Capitalist, 2010–2023.

Читать публикацию