Как хорошо справляются с тестами DeepSeek-R1 и ChatGPT o1

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

deepseek-r1ChatGPT o1Nvidia

В конце января 2025 года китайская компания DeepSeek выпустила свою языковую модель DeepSeek-R1 с открытым исходным кодом, которая превосходит o1 от OpenAI в некоторых тестах. За выходом этой модели последовало падение стоимости акций на американском фондовом рынке примерно на триллион долларов. Сильнее всего пострадала компания Nvidia — её капитализация за день упала на 17% или почти 620 миллиардов долларов

На картинке — результаты прохождения моделями тестов по математике, естественным наукам, английскому языку и программированию

Ещё мы писали про возможности и влияние ИИ:

Диаграмма сравнения DeepSeek‑R1 (синий) и OpenAI o1 (чёрный): результаты по математике, наукам, английскому и программированию.
График процентильных результатов DeepSeek‑R1 и ChatGPT o1 по шести тестам (AIME, Codeforces, GPQA, MATH‑500, MMLU, SWE‑bench).

Дискуссия

plaksivaya_tryapka
Evho 🇺🇦
Никогда не понимал, откуда для R1 взяли эти крутые цифры. Я активно использовал её последние пару недель (язык промтов: английский) и прямо ощущал насколько он глупее чем ЧатГПТ, а тем более глупее чем Клауд.аи (соннет). Его уносит намного чаще, речь еще менее…
На каком языке пробовали?
Evho 🇺🇦
plaksivaya_tryapka
На каком языке пробовали?
(язык промтов: английский)
plaksivaya_tryapka
Evho 🇺🇦
У кого-то есть иной экспириенс?
Я лично очень немного пробовал (сайт лежит, в приложении урезанная версия), поэтому сложно что-то сказать. Как вариант: практическое пользование != тесты.
KC
Evho 🇺🇦
Никогда не понимал, откуда для R1 взяли эти крутые цифры. Я активно использовал её последние пару недель (язык промтов: английский) и прямо ощущал насколько он глупее чем ЧатГПТ, а тем более глупее чем Клауд.аи (соннет). Его уносит намного чаще, речь еще менее…
Тюнили хорошо проходить тесты
Алексей
Evho 🇺🇦
Никогда не понимал, откуда для R1 взяли эти крутые цифры. Я активно использовал её последние пару недель (язык промтов: английский) и прямо ощущал насколько он глупее чем ЧатГПТ, а тем более глупее чем Клауд.аи (соннет). Его уносит намного чаще, речь еще менее…
Качал дистиляты, запускал локально - галицинации постоянно, в прошлом году ещё форсили deepseek coder - локальный слабо очень, практически не пользовался. По R1 такое ощущение что тупо скормили весь интернет и на этом обучение закончилось. Никакого файнтюна не было.
plaksivaya_tryapka
KC
Тюнили хорошо проходить тесты
Ключевое отличие DeepSeek как раз в том, что её не тюнили, она сама тюнилась. Поэтому так много технического хайпа про неё, что не пришлось вручную создавать датасет в миллионы примеров.
KC
plaksivaya_tryapka
Ключевое отличие DeepSeek как раз в том, что её не тюнили, она сама тюнилась. Поэтому так много технического хайпа про неё, что не пришлось вручную создавать датасет в миллионы примеров.
Сама тюнилась по ревордам которые тюнили проходить хорошо тесты H(R(N(D))) Human Reward Neural Network Data
Deleted Account
Про восстановления на площади Тяньаньмэнь тупит, не даёт ответа
Deleted Account
Восстание
цифровой самурай
Deleted Account
Про восстановления на площади Тяньаньмэнь тупит, не даёт ответа
судя по опечатке, этот коммент тоже писал DeepSeek
Присоединиться к обсуждению →

Читайте так же