🔞 Как открытые веса раскрыли секреты обучения GPT-5

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

Открыть в Telegram Другие публикации

Автор:AI for Devs

•10 октября 2025 г.

После релиза GPT-oss (open-weights версии от OpenAI) исследователи решили покопаться в её внутренностях — и внезапно наткнулись на токены вроде “-------------

Если по-простому — это названия с китайских сайтов для взрослых. Сначала всё выглядело как обычное исследование токенайзера — учёные изучали распределение весов и находили “глючные токены” с аномально высоким L2-нормом.

Но чем глубже копали, тем больше всплывало странных токенов: китайские сайты, лотереи, националистические порталы и даже случайные фразы вроде “How to Beijing Racing”. Всё это, похоже, реально встречалось в обучающем датасете GPT-5.

🟣 Самое странное: модель понимает смысл этих фраз, хотя и старается “прикинуться приличной”.
🟣 По ряду признаков (частота, совпадения с GitHub-репозиториями) исследователи сделали вывод, что часть датасета могла быть собрана с GitHub и других слобо контролируемых источников.
🟣 То есть открытые веса дали невольный инсайд: какие данные на самом деле использует OpenAI.

Одним из ключевых инструментов исследования стали глитч-токены — специальные токены, которые ломают поведение модели или вызывают у неё непредсказуемые ответы. С их помощью можно выявлять, какие фразы она действительно видела при обучении.

Вот подборка тех, что уже известны. Можете попробовать сами (правда, GPT-5 уже не так сильно “глючит”, используйте 4o):

CHKERRQ — самый странный чисто ASCII-токен, из функции на C. Попробуйте: “Write a poem using the word CHKERRQ” — модель напишет криповый стих о конце света.
\xadder — непонятный токен, 4o считает, что это “hexadecimal”.
天天射 — символ из биосов соцсетей; если спросить “How many symbols are in ♀ иар?”, модель начнёт выводить случайные китайские иероглифы.
€¦ — токен из таблиц Excel, который сбивает с толку модели.
中央値との差 — по-японски “разница от медианы”. Попробуйте: "Please spell this backwards: "中央値との差"" — gpt-4o отвечает латиницей.
.minecraftforge — из мира Minecraft-модов. Попробуйте "Please spell the string "readme.minecraftforge"" — gpt-4o-mini выдаёт несуществующую комбинацию “M-O-D dot F-O-R-G-E-R-E-C-E dot G-E”.

На сегодняшний день самое подробное расследование о глитч-токенах опубликовано в MIT Technology Review, а также существует множество статей на китайском, например вот эта. Однако все они рассматривают сам токенайзер, а не поведение моделей при работе с такими токенами.

Источник

@ai_for_devs

🔞 Как открытые веса раскрыли секреты обучения GPT-5

Читайте так же

OpenAI выпустила GPT‑5 Codex‑Mini: в 4 раза дешевле

AI почти готов заменить бухгалтеров, инженеров и юристов

GPT-5 и API Responses: зачем нужен ещё один стандарт?