ByteDance нанесла удар в спину Kling 3.0

Acid Crunch — AI, GameDev, R&D, нейросети и GPT хаки @AcidCrunch

Мы исследуем AI в GameDev и медиа, делимся рабочими пайплайнами, промптами и экспериментами из личного R&D. Публикуем практические туториалы, хаки и обновления по собственным инструментам BananaCrunch/Faky. Если нужен реальный продакшн-кейс, а не «магия в одну кнопку» — вам сюда.

Открыть в Telegram Другие публикации

Kling 3.0 не успел даже толком погреться в лучах славы, а создатели TikTok уже выкатили своего кайдзю. И он реально впечатляет.

Главная фишка — можно скормить модели до 12 референсов разом: 9 картинок + 3 видео. Закидываешь фото актёра, фото локации, видео с нужными движениями и она собирает из этого готовую сцену. Больше контроля, меньше промптинга, почти идеально!

Что умеет:

Понимает текст, картинки, видео и аудио одновременно
Генерит ролики 4–15 секунд
Сама добавляет звук и музыку в тему.
Перерисовывает готовое видео в новом стиле, сохраняя движения
Модель омни, понимает не только контекст но и выстраивает свою картину мира из референсов. Причём делает это интересно не 1 в 1 а очень приближенно, как будто понимает ага вот тут я не смогу такое движение сделать попробую немного иначе и выходит очень хорошо!

Уникальные преимущества которые на мой взгляд отрывают от конкуурентов:

Динамика — лучшая на рынке. Драки, танцы, акробатика — тела двигаются как настоящие, а не как пластилиновые

Камера — облёты на 360°, сложный трекинг. Раньше такое убивало качество у любой модели

Персонажи "почти" не ломаются — поворот головы, резкое движение — лицо остаётся тем же. Звучит как базовое требование, но до сих пор это была проблема, В супер сложных сценах да бывает что что то морфится, но это настолько незаметно что и пофиг)

Сборка из референсов — вот это прям киллер-фича. Ты буквально показываешь модели «хочу вот этого человека, в этом месте, с такими движениями в такой графике. » И она это делает. МАГИЯ

Не без проблем давай расскажу

Контекст иногда заставляет модель «глючить». Персонажи, которых не было в кадре, но которые должны, например, взять ружьё со стойки, порой появляются уже с этим оружием в руках — при этом предметы как будто «сливаются» в одну сущность. Формально логика соблюдается, но возникает дублирование контекста.

Иногда персонажи могут исчезнуть, если дверь закрывается и тут же снова открывается — буквально в ту же секунду.

Физика тоже временами переходит в режим гонконгского боевика: движения персонажей выглядят красиво, но слишком «воздушно», будто они парят на тросах, как в фильмах про кунг-фу.

Kling 3.0 берёт фотореализмом и проработкой деталей. SeeDance 2.0 — экшеном, движением и контролем над сценой. На мой взгляд Это две самых жирных модели на данный момент времени и не использовать в работе будет ошибкой.

Постарался собрать для тебя уникальную партию примеров. В комменты скину чё не влезло в пост.

😂 Ждём полноценного выхода SeeDance 2 по API, а пока ставь реакции и подписывайся!

AcidCrunch

Дискуссия