ByteDance представила Seedance 2.5, 30-секундную нативную 4K AI видеомодель, которая принимает 50 эталонных входов.
TL;DRByteDance объявила о Seedance 2.5 на своей конференции в Пекине, генерируя 30-секундное нативное 4K видео из до 50 мультимодальных входных данных.
ByteDance представила Seedance 2.5 во вторник на своей конференции Volcano Engine FORCE в Пекине, модели генерации видео, которая производит 30-секундные клипы в нативном 4K разрешении из одного запроса. Компания полностью пропустила четыре промежуточные версии, сразу перейдя от своего предшественника, чтобы сигнализировать о том, что она описывает как скачок поколения.
Бета-версия для предприятий уже запущена, а публичный запуск запланирован на начало июля. Генеральный директор Лянь Жубо сообщил на конференции, что восхождение на вершину ИИ является главным приоритетом компании, при этом ее бизнес модели как услуги эволюционирует в основополагающую операцию, поддерживаемую долгосрочными инвестициями.
Основное обновление — это емкость ссылок: модель принимает до 50 мультимодальных входных данных, включая изображения, аудиоклипы, 3D белые модели и стилистические ссылки, увеличившись с 12 в своем предшественнике. Эти входные данные дают Seedance 2.5 гораздо более детальный контроль над стилем, движением и композицией, чем один текстовый запрос.
Модель генерирует в нативном 4K, а не увеличивает разрешение с более низкого, что имеет значение для профессиональных производственных потоков. Она поддерживает 10-битную цветовую глубину для более плавных градиентов и большего пространства для цветокоррекции в пост-продакшене. ByteDance также утверждает, что соблюдение запросов улучшилось на 20 процентов, что означает меньшее количество генераций перед получением пригодного результата.
Аудио теперь обрабатывается совместно в том же скрытом пространстве, что и визуальные сигналы, обеспечивая нативную синхронизацию между действиями на экране и соответствующими звуковыми эффектами. Новая функция предварительного просмотра 3D белой коробки позволяет создателям генерировать анимации низкого качества перед тем, как перейти к рендерингу полного качества. Вместе эти функции позиционируют модель как инструмент для производства, а не как генератор новинок.
Объявление произошло через три месяца после того, как ByteDance была вынуждена добавить водяные знаки и защиту интеллектуальной собственности к Seedance 2.0 после получения писем с требованием прекратить действия от Disney, Warner Bros Discovery, Paramount и Netflix. Вирусный дипфейк с Томом Крузом, сражающимся с Брэдом Питтом на крыше, вызвал официальную жалобу от Ассоциации кинематографистов и осуждение от SAG-AFTRA.
ByteDance приостановила глобальный запуск в середине марта и не возобновила его через CapCut до конца марта, с фильтрами блокировки лиц, водяными знаками C2PA и обнаружением защищенных авторским правом персонажей. Никакой временной график для доступности новой модели в Соединенных Штатах не был предложен.
Конкурентная обстановка резко изменилась с февраля. OpenAI закрыла Sora в марте после того, как инструмент видео достиг пика примерно в один миллион пользователей и, как сообщается, стоил около миллиона долларов в день для эксплуатации, генерируя чуть более двух миллионов долларов общего дохода.
Veo 3.1 от Google заполнила большую часть вакуума, предлагая нативный 4K вывод, генерацию аудио и до трех ссылочных изображений для контроля стиля. Но новая модель ByteDance значительно превышает емкость входных данных Veo, принимая 50 входов против трех у Veo, разрыв, который имеет значение для профессиональных рабочих процессов.
Рынок генерации видео с использованием ИИ быстро фрагментировался, при этом китайские модели движутся быстрее в производственных инструментах, чем западные конкуренты. Платформы третьих сторон, такие как AI Studio от Reallusion, уже построили профессиональные потоки вокруг предшествующей модели, а инструмент четвертого поколения Runway выпал из топ-10 Искусственного анализа.
Сможет ли новая модель выйти на глобальные рынки, не разжигая вновь битвы за авторские права, которые остановили ее предшественника, остается центральным вопросом. У ByteDance есть модель, дистрибуция через 400 миллионов активных пользователей CapCut и вертикальная интеграция от генерации до редактирования и обмена. Но у нее еще нет соглашения с Голливудом, и каждая функция, которая делает модель более способной, также повышает ставки этого нерешенного конфликта.
Other articles
ByteDance представила Seedance 2.5, 30-секундную нативную 4K AI видеомодель, которая принимает 50 эталонных входов.
ByteDance объявила о Seedance 2.5 на своей конференции в Пекине, создавая 30-секундные нативные 4K клипы из до 50 эталонных входов, с публичным запуском в июле.
