SAM-Audio: Meta выделяет звук отдельных объектов

Рассказываем о зарубежных цифровых сервисах и ИИ-инструментах простым языком: что выбрать, сколько стоит и как начать пользоваться из России и Беларуси. Делаем обзоры, сравнения и практичные советы для работы, творчества, гейминга и путешествий. PAYHOLDER.RU — ваш надёжный проводник в мире международных онлайн-сервисов.

sam-audiometaаудиоизоляция

Meta представила аудиомодальность для своей модели SAM (Segment Anything), которая может изолировать звук, исходящий от конкретного объекта в видео.

🎯 Как это работает:

  1. Пользователь выделяет объект в видео (клик/выделение)
  2. Модель анализирует аудиопоток
  3. Генерирует два трека: целевой звук объекта + остаточный звук фона

🔧 Технологическая основа:

  • Perception Encoder Audiovisual (PE-AV) — «уши» системы
  • Flow-matching diffusion transformer архитектура
  • Поддержка трёх типов промптов: текстовый, визуальный, временной
  • Скорость: быстрее реального времени (RTF ≈ 0.7)
  • Масштабируемость: от 500M до 3B параметров

🕵️ Практическое применение:

  • Выделение диалога конкретных людей в шумной обстановке
  • Изоляция звука от определённого инструмента в оркестре
  • Анализ аудиоданных в научных исследованиях
  • Потенциальное использование в системах наблюдения

⚠️ Ограничения:

  • Не может выделить отдельного певца из хора
  • Лицензия CC-BY-NC 4.0 (только некоммерческое использование)
  • Пока не распознаёт схожие источники звука

Модель демонстрирует прорыв в аудиовизуальном анализе, но и поднимает вопросы о этическом использовании таких технологий.

PAYHOLDER.RU — посредник для оплаты зарубежных ИИ-сервисов из России и Беларуси. 💳

Превью: синий фон с заголовком «SAM-Audio: Meta научила ИИ выделять звук из отдельных объектов на видео», крупный знак вопроса и водяной знак PayHolder.
Превью к материалу о SAM-Audio и аудиовизуальной изоляции звука.

Читайте так же