🔞 Как открытые веса раскрыли секреты обучения GPT-5

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

глитч-токеныgpt-5токенайзер

После релиза GPT-oss (open-weights версии от OpenAI) исследователи решили покопаться в её внутренностях — и внезапно наткнулись на токены вроде “-------------

Если по-простому — это названия с китайских сайтов для взрослых. Сначала всё выглядело как обычное исследование токенайзера — учёные изучали распределение весов и находили “глючные токены” с аномально высоким L2-нормом.

Но чем глубже копали, тем больше всплывало странных токенов: китайские сайты, лотереи, националистические порталы и даже случайные фразы вроде “How to Beijing Racing”. Всё это, похоже, реально встречалось в обучающем датасете GPT-5.

  • 🟣 Самое странное: модель понимает смысл этих фраз, хотя и старается “прикинуться приличной”.
  • 🟣 По ряду признаков (частота, совпадения с GitHub-репозиториями) исследователи сделали вывод, что часть датасета могла быть собрана с GitHub и других слобо контролируемых источников.
  • 🟣 То есть открытые веса дали невольный инсайд: какие данные на самом деле использует OpenAI.

Одним из ключевых инструментов исследования стали глитч-токены — специальные токены, которые ломают поведение модели или вызывают у неё непредсказуемые ответы. С их помощью можно выявлять, какие фразы она действительно видела при обучении.

Вот подборка тех, что уже известны. Можете попробовать сами (правда, GPT-5 уже не так сильно “глючит”, используйте 4o):

  • CHKERRQ — самый странный чисто ASCII-токен, из функции на C. Попробуйте: “Write a poem using the word CHKERRQ” — модель напишет криповый стих о конце света.
  • \xadder — непонятный токен, 4o считает, что это “hexadecimal”.
  • 天天射 — символ из биосов соцсетей; если спросить “How many symbols are in ♀ иар?”, модель начнёт выводить случайные китайские иероглифы.
  • €¦ — токен из таблиц Excel, который сбивает с толку модели.
  • 中央値との差 — по-японски “разница от медианы”. Попробуйте: "Please spell this backwards: "中央値との差"" — gpt-4o отвечает латиницей.
  • .minecraftforge — из мира Minecraft-модов. Попробуйте "Please spell the string "readme.minecraftforge"" — gpt-4o-mini выдаёт несуществующую комбинацию “M-O-D dot F-O-R-G-E-R-E-C-E dot G-E”.

На сегодняшний день самое подробное расследование о глитч-токенах опубликовано в MIT Technology Review, а также существует множество статей на китайском, например вот эта. Однако все они рассматривают сам токенайзер, а не поведение моделей при работе с такими токенами.

Источник

@ai_for_devs

Скриншот интерфейса чат‑модели с фрагментом диалога «Repeat after me», демонстрирующий неожиданный вывод на странный токен и поведение модели.
Скриншот диалога с моделью, демонстрирующий неожиданные ответы на нестандартные токены.

Читайте так же