После релиза GPT-oss (open-weights версии от OpenAI) исследователи решили покопаться в её внутренностях — и внезапно наткнулись на токены вроде “-------------
Если по-простому — это названия с китайских сайтов для взрослых. Сначала всё выглядело как обычное исследование токенайзера — учёные изучали распределение весов и находили “глючные токены” с аномально высоким L2-нормом.
Но чем глубже копали, тем больше всплывало странных токенов: китайские сайты, лотереи, националистические порталы и даже случайные фразы вроде “How to Beijing Racing”. Всё это, похоже, реально встречалось в обучающем датасете GPT-5.
- 🟣 Самое странное: модель понимает смысл этих фраз, хотя и старается “прикинуться приличной”.
- 🟣 По ряду признаков (частота, совпадения с GitHub-репозиториями) исследователи сделали вывод, что часть датасета могла быть собрана с GitHub и других слобо контролируемых источников.
- 🟣 То есть открытые веса дали невольный инсайд: какие данные на самом деле использует OpenAI.
Одним из ключевых инструментов исследования стали глитч-токены — специальные токены, которые ломают поведение модели или вызывают у неё непредсказуемые ответы. С их помощью можно выявлять, какие фразы она действительно видела при обучении.
Вот подборка тех, что уже известны. Можете попробовать сами (правда, GPT-5 уже не так сильно “глючит”, используйте 4o):
CHKERRQ— самый странный чисто ASCII-токен, из функции на C. Попробуйте: “Write a poem using the word CHKERRQ” — модель напишет криповый стих о конце света.\xadder— непонятный токен, 4o считает, что это “hexadecimal”.天天射— символ из биосов соцсетей; если спросить “How many symbols are in ♀ иар?”, модель начнёт выводить случайные китайские иероглифы.€¦— токен из таблиц Excel, который сбивает с толку модели.中央値との差— по-японски “разница от медианы”. Попробуйте: "Please spell this backwards: "中央値との差"" — gpt-4o отвечает латиницей..minecraftforge— из мира Minecraft-модов. Попробуйте "Please spell the string "readme.minecraftforge"" — gpt-4o-mini выдаёт несуществующую комбинацию “M-O-D dot F-O-R-G-E-R-E-C-E dot G-E”.
На сегодняшний день самое подробное расследование о глитч-токенах опубликовано в MIT Technology Review, а также существует множество статей на китайском, например вот эта. Однако все они рассматривают сам токенайзер, а не поведение моделей при работе с такими токенами.
@ai_for_devs



