Meta представила аудиомодальность для своей модели SAM (Segment Anything), которая может изолировать звук, исходящий от конкретного объекта в видео.
🎯 Как это работает:
- Пользователь выделяет объект в видео (клик/выделение)
- Модель анализирует аудиопоток
- Генерирует два трека: целевой звук объекта + остаточный звук фона
🔧 Технологическая основа:
- Perception Encoder Audiovisual (PE-AV) — «уши» системы
- Flow-matching diffusion transformer архитектура
- Поддержка трёх типов промптов: текстовый, визуальный, временной
- Скорость: быстрее реального времени (RTF ≈ 0.7)
- Масштабируемость: от 500M до 3B параметров
🕵️ Практическое применение:
- Выделение диалога конкретных людей в шумной обстановке
- Изоляция звука от определённого инструмента в оркестре
- Анализ аудиоданных в научных исследованиях
- Потенциальное использование в системах наблюдения
⚠️ Ограничения:
- Не может выделить отдельного певца из хора
- Лицензия CC-BY-NC 4.0 (только некоммерческое использование)
- Пока не распознаёт схожие источники звука
Модель демонстрирует прорыв в аудиовизуальном анализе, но и поднимает вопросы о этическом использовании таких технологий.
PAYHOLDER.RU — посредник для оплаты зарубежных ИИ-сервисов из России и Беларуси. 💳



