Почему китайские ИИ тупые и будут тупеть (мнение)

китайский иицензураинформационная плотность

Китайский ИИ — это постоянное обучение на безопасном дерьме.

В китайском интернете мало высококачественного контента, доступного для сбора данных из-за цензуры, фильтрации, замены чувствительных слов, бессмысленных выражений после "гармонизации" текста.

"Информационная плотность" и разнообразие обучающих данных во многом недостаточны.

Модели часто не справляются с задачами, требующими сложных рассуждений на китайском языке, длинных контекстуальных связей, юмора, остроумной критики или обсуждения спорных тем.

На выходе текст либо слишком "безопасный", либо слишком шаблонный.

Многие открытые дискуссии, крайние взгляды реальных людей, многосторонние споры, чёрный юмор, субкультурные мемы и политически некорректный, но логически последовательный контент либо удаляются, либо вообще не создаются, либо, если создаются, не попадают в базу данных для обучения.

Сейчас многие так называемые "модели следующего поколения" в Китае фактически продолжают обучаться на "чистых данных", генерируемых самим ИИ, и это порочный круг.

🇨🇳 Китайская Угроза

Дискуссия

Andriy Ilyenko
А с чего они взяли что китайские ии обучаются только на китайских данных?
Daniel
Сейчас практически все модели ИИ в мире учатся на синтетических данных. Под капотом схема ИИ ученик и ИИ учитель, а также может быть ИИ оценщик ответов ученика. Естественно такая схема имеет тысячу разных вариаций, но ее суть остаётся прежней. По такой схеме учился китайский GLM5 который один из лучших сейчас, Deepseek V4 учился также (который релизнут со дня на день). Ну и западные модели также учатся. И кстати забавный факт, модели делают цензурными не на этапе обучения, потому что если цензурировать на этапе обучения моментально деградирует нейронка. Цензура навешивается поверх готовой модели.
Ash ::;
Кому не нравятся китайские ИИ, пусть пользуются Алисой. Она подробно расскажет, какая погода за окном.
Argyn Boy
Daniel
Сейчас практически все модели ИИ в мире учатся на синтетических данных. Под капотом схема ИИ ученик и ИИ учитель, а также может быть ИИ оценщик ответов ученика. Естественно такая схема имеет тысячу разных вариаций, но ее суть остаётся прежней. По такой схеме…
И так ведь модели учатся не день или два, а весь прошлый год. И это обучение как то не помешало гемини 3, гпт 5.2, китайским моделям за более дешёвую цену генерации токенов превзойти прошлые на поколение. Плюс в последнее время китайцы лучше всего экспериментируют, как с ройем агентов в кими
Zonengeist
Не разделяю радение за качество китайских моделей, потому, что: 1. Китайские модели обучаются на нецензурированных корпусах, цензурирование осуществляется на выдаче специализированным агентом, который следит за процессом выдачи. 2. Корпуса для обучения мультиязычные и качаются в том числе из рускоязычных и англоязычных интернетов. 3. Китайские модели в открытом доступе и бесплатные пользователи формируют для них уникальный и более качественный обучающий корпус, так как модель "знает" своего пользователя. Проблемы китайского ИИ, несомненно существуют, но их не следует искать на технологическом уровне.
Мих Sin Lob
Zonengeist
Не разделяю радение за качество китайских моделей, потому, что: 1. Китайские модели обучаются на нецензурированных корпусах, цензурирование осуществляется на выдаче специализированным агентом, который следит за процессом выдачи. 2. Корпуса для обучения мультиязычные…
кроме дипсика, какие китайские бесплатно в открытом доступе для русских
Argyn Boy
Мих Sin Lob
кроме дипсика, какие китайские бесплатно в открытом доступе для русских
Они каждый месяц выходят. Glm 5, qwen, kimi, wan, hynyan
Z Z
Petrowich73
Пока всякие ... ждут от ИИ открытых дискуссий, крайних взглядов, черного юмора, и прочей словесной шелухи китайцы вкладывают миллионы в разработку ИИ приложений в промышленной и научно-технологической сфере) а вы пока давайте, тренируйтесь у кого ответ будет…
Так в Китае и корпус научной литературы очень «фильтрованный». Даже комментарии в коже надо писать аккуратно.
Z Z
Petrowich73
Пока всякие ... ждут от ИИ открытых дискуссий, крайних взглядов, черного юмора, и прочей словесной шелухи китайцы вкладывают миллионы в разработку ИИ приложений в промышленной и научно-технологической сфере) а вы пока давайте, тренируйтесь у кого ответ будет…
Например, слово «отрицательный» — очень плохое и опасное, потому что в интернете лучше не писать негативные слова. Роботы могут забанить, или понизить в выдаче. Поэтому на до писать «противоположный, относительно положительного». Тут нет негатива, это писать можно (хотя слово «противоположный» плохое, конечно. Там как будто бы ты чего-то «против»). Поэтому китайские научные тексты быстро превращаются в кашу из синонимов и перефразировок.
Присоединиться к обсуждению →

Читайте так же