ByteDance нанесла удар в спину Kling 3.0

Мы исследуем AI в GameDev и медиа, делимся рабочими пайплайнами, промптами и экспериментами из личного R&D. Публикуем практические туториалы, хаки и обновления по собственным инструментам BananaCrunch/Faky. Если нужен реальный продакшн-кейс, а не «магия в одну кнопку» — вам сюда.

Kling 3.0ByteDanceSeeDance 2.0

Kling 3.0 не успел даже толком погреться в лучах славы, а создатели TikTok уже выкатили своего кайдзю. И он реально впечатляет.

Главная фишка — можно скормить модели до 12 референсов разом: 9 картинок + 3 видео. Закидываешь фото актёра, фото локации, видео с нужными движениями и она собирает из этого готовую сцену. Больше контроля, меньше промптинга, почти идеально!

Что умеет:

  • Понимает текст, картинки, видео и аудио одновременно
  • Генерит ролики 4–15 секунд
  • Сама добавляет звук и музыку в тему.
  • Перерисовывает готовое видео в новом стиле, сохраняя движения
  • Модель омни, понимает не только контекст но и выстраивает свою картину мира из референсов. Причём делает это интересно не 1 в 1 а очень приближенно, как будто понимает ага вот тут я не смогу такое движение сделать попробую немного иначе и выходит очень хорошо!

Уникальные преимущества которые на мой взгляд отрывают от конкуурентов:

Динамика — лучшая на рынке. Драки, танцы, акробатика — тела двигаются как настоящие, а не как пластилиновые

Камера — облёты на 360°, сложный трекинг. Раньше такое убивало качество у любой модели

Персонажи "почти" не ломаются — поворот головы, резкое движение — лицо остаётся тем же. Звучит как базовое требование, но до сих пор это была проблема, В супер сложных сценах да бывает что что то морфится, но это настолько незаметно что и пофиг)

Сборка из референсов — вот это прям киллер-фича. Ты буквально показываешь модели «хочу вот этого человека, в этом месте, с такими движениями в такой графике. » И она это делает. МАГИЯ

Не без проблем давай расскажу

Контекст иногда заставляет модель «глючить». Персонажи, которых не было в кадре, но которые должны, например, взять ружьё со стойки, порой появляются уже с этим оружием в руках — при этом предметы как будто «сливаются» в одну сущность. Формально логика соблюдается, но возникает дублирование контекста.

Иногда персонажи могут исчезнуть, если дверь закрывается и тут же снова открывается — буквально в ту же секунду.

Физика тоже временами переходит в режим гонконгского боевика: движения персонажей выглядят красиво, но слишком «воздушно», будто они парят на тросах, как в фильмах про кунг-фу.

Kling 3.0 берёт фотореализмом и проработкой деталей. SeeDance 2.0 — экшеном, движением и контролем над сценой. На мой взгляд Это две самых жирных модели на данный момент времени и не использовать в работе будет ошибкой.

Постарался собрать для тебя уникальную партию примеров. В комменты скину чё не влезло в пост.

😂 Ждём полноценного выхода SeeDance 2 по API, а пока ставь реакции и подписывайся!

AcidCrunch

Кадр: мужчина бежит по коридору видеомагазина между полками и дисками, динамичная сцена с акцентом на движение и пространство кадра.
Кадр с динамичным «бегом» между полками — пример сложного трекинга и движения в сцене.
Крупный план двух мультяшных персонажей в стиле видеоигры (весёлые яркие герои) в кухонной обстановке, дружелюбная сцена.
Анимационные персонажи в домашней сцене — пример стилистической перерисовки и эмоций.
Кадр снизу: шаги людей в длинных плащах по блестящему полу коридора, акцент на композицию и отражения в кадре.
Композиция с отражением и динамикой шагов — тест на сохранение камеры и деталей.
Группа людей в формальной одежде дерётся на платформе метро; много тел и сложная сцена с взаимодействием персонажей в движении.
Боевая сцена на станции — иллюстрация теста динамики и взаимодействия персонажей.
Мужчина в кафе/баре резко шагает к прилавку рядом с кассовым аппаратом и витриной, кадр с бытовым действием и экспрессией.
Бытовая сцена с резким действием — пример проблем с предметами и контекстом в генерации.
Фэнтезийная лестница в подземелье и персонаж с поднятым мечом, игра света и теней, испытание для физики движения и деталей оружия.
Фэнтезийный экшен — тест на передачу физики движения и взаимодействия с окружением.
Городская сцена: мужчина с пистолетом держит мягкую игрушку покемона, контраст насилия и комичного аксессуара, яркий центр кадра.
Контраст драматического сюжета и комичного реквизита — пример сложного семантического микширования.
Кадр в интерьере большой залы: молодой персонаж в школьной форме и бледный антагонист с красным носом, сцена диалога и экспрессии лиц.
Кадр с узнаваемыми вымышленными персонажами и акторской экспрессией — тест на сохранение черт лица.

Дискуссия

Valeri Pizhanski
нож в спину жеско конечно но на самом деле не все так плохо просто крутая конкуренция
Acid Crunch Chat
Valeri Pizhanski
нож в спину жеско конечно но на самом деле не все так плохо просто крутая конкуренция
Это хук)
Acid Crunch Chat
Acid Crunch Chat
Это хук)
Забайтил получается)
Acid Crunch Chat
хаахах
Максим
Ну это же огнище, экшен сцены, драки, погони. Ждем релиза и сколько все это будет стоить 😁
Алексей Костенков
не, на всяких экшн сценах дохерища артефактов и мусора все равно. Но статичные кадры впечатляют
Алексей Костенков
вернее те, где нет особого CGI типо
Alex Techdir
Все кошмар и ужас, но хайзенберг с соулом просто капец, как круто.
Присоединиться к обсуждению →

Читайте так же