Генерация видео от Luma: делюсь результатами и впечатления

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

Lumaгенерация видеодинамика кадра

На прошлой неделе вышла новая модель генерации видео - Luma.

Почему это важно:

  1. Открытый доступ. Этот инструмент находится в открытом доступе, в отличие от Sora и ряда китайских моделей (одна из них, Kling, также релизнулась на прошлой неделе, но она также в ограниченном доступе в Китае)
  2. Высокая динамика в кадре. Есть и другие доступные в открытном доступе модели для генерации видео: Pika и Runway, но у них очень низкая динамика в кадре, часто больше похоже на медленное движение камеры в относительно статичном кадре (см. первое видео со сравнением трех моделей, позаимствовала из Сиолошной)
  3. В целом появление моделей генерации видео важны, это шаг в сторону познания мира вокруг нас.

Впечатления:

  • ◾Прикольно. Наверное, люди, которые видят этим вещам прикладное применение: AI-режиссеры, маркетологи, креаторы - радуются этому релизу больше чем я. Мне просто прикольно 🙂
  • ◾Динамика в кадре реально высокая, иногда даже слишком. Персонажи двигают губами, как будто говорят что-то, даже когда их об этом не просишь. На промпте “a pixar-style puppy making sad eyes” (второе видео), во-первых, появилась вторая собака, а во-вторых, они обе разговаривают. Даже просьба в промпте, чтобы персонажи не говорили, не ведет к успеху (третье видео с женщиной полицейским - промптила, чтобы она не говорила). В общем динамика добавляется сама по себе, когда ее не ждешь.
  • ◾Конечности сливаются, лица меняются в одном кадре, два хвоста у кота - в общем типичные неточности модели дают о себе знать.
  • ◾Генерация с вводным изображением и детальным промптом сильно лучше в качестве. Хотя иногда модель совсем игнорирует часть промпта.
  • ◾Не так кинематографично как на демо к Sora. Но мы и не демо сравниваем а реальные кейсы 😌

Сравним инвестиции:

  • ◽️ Pika - $135M,
  • ◽️ Runway - $236M,
  • ◽️ Luma - $67M

Вывод: впечатляет

Затестить можно тут
Почитать правила промптинга можно тут

Сравнительный кадр трёх моделей генерации видео (Runway, Pika, Luma): тёмный прибрежный пейзаж с лодкой и домом, вид в три строки для сравнения качества и композиции.
Кадр сравнения качества и композиции между Runway, Pika и Luma.
Пушистый щенок в стиле Pixar, с эмоциональным выражением глаз; кадр демонстрирует пример генерации персонажа и проблемы с синхронизацией губ при движении.
Пример щенка, где модель добавила движение губ и вторую собаку.
Кадр женщины-полицейского с элементами экипировки на поясе; иллюстрация случая, где модель генерирует человекоподобную фигуру с артефактами в деталях.
Кадр с полицейским персонажем, где наблюдаются артефакты и говорящая мимика.
Кот идёт по улице в тёплом вечернем освещении; кадр показывает проблемы с хвостами и смешением конечностей при генерации животных сцен.
Кадр с котом, где у модели появились два хвоста и артефакты движения.
Персонаж за розовым ноутбуком с логотипом, сценический кадр с мультяшной эстетикой, демонстрирует стилизацию и детализацию лиц в Luma.
Мультяшная стилизация персонажа и детали рабочего окружения.
Размытое сценическое движение актёров в постановочной драке; кадр иллюстрирует артефакты движения и размытые конечности при генерации динамики.
Динамичная сцена с размытием и артефактами движения.
Человек в походной экипировке идёт по горной тропе; кадр демонстрирует более реалистичную генерацию пейзажей и движения в Luma по сравнению с другими моделями.
Генерация пейзажа и походной сцены с хорошей детализацией фона.
Женщина с оружием в руках в полицейской форме; кадр показывает склонность модели к добавлению разговорной мимики и возможные артефакты деталей экипировки.
Короткий кадр с полицейским и явными артефактами в деталях экипировки.