Китайский ИИ — это постоянное обучение на безопасном дерьме.
В китайском интернете мало высококачественного контента, доступного для сбора данных из-за цензуры, фильтрации, замены чувствительных слов, бессмысленных выражений после "гармонизации" текста.
"Информационная плотность" и разнообразие обучающих данных во многом недостаточны.
Модели часто не справляются с задачами, требующими сложных рассуждений на китайском языке, длинных контекстуальных связей, юмора, остроумной критики или обсуждения спорных тем.
На выходе текст либо слишком "безопасный", либо слишком шаблонный.
Многие открытые дискуссии, крайние взгляды реальных людей, многосторонние споры, чёрный юмор, субкультурные мемы и политически некорректный, но логически последовательный контент либо удаляются, либо вообще не создаются, либо, если создаются, не попадают в базу данных для обучения.
Сейчас многие так называемые "модели следующего поколения" в Китае фактически продолжают обучаться на "чистых данных", генерируемых самим ИИ, и это порочный круг.

Дискуссия