ByteDance svela Seedance 2.5, un modello video AI nativo 4K di 30 secondi che accetta 50 input di riferimento.
TL;DRByteDance ha annunciato Seedance 2.5 durante la sua conferenza a Pechino, generando video nativi in 4K di 30 secondi da un massimo di 50 input multimodali di riferimento.
ByteDance ha svelato Seedance 2.5 martedì alla sua conferenza Volcano Engine FORCE a Pechino, un modello di generazione video che produce clip di 30 secondi a risoluzione nativa 4K da un singolo prompt. L'azienda ha saltato completamente quattro versioni intermedie, passando direttamente dal suo predecessore per segnalare quello che ha descritto come un salto generazionale.
Una beta per le imprese è già attiva, con il lancio pubblico previsto per inizio luglio. Il CEO Liang Rubo ha dichiarato alla conferenza che scalare la vetta dell'IA è la massima priorità dell'azienda, con il suo modello come servizio che si evolve in un'operazione fondamentale supportata da investimenti a lungo termine.
L'aggiornamento principale è la capacità di riferimento: il modello accetta fino a 50 input multimodali, tra cui immagini, clip audio, modelli bianchi 3D e riferimenti di stile, rispetto ai 12 del suo predecessore. Questi input danno a Seedance 2.5 un controllo molto più granulare su stile, movimento e composizione rispetto a un semplice prompt testuale.
Il modello genera nativamente a 4K piuttosto che effettuare un upscaling da una risoluzione inferiore, una distinzione che conta per i flussi di lavoro di produzione professionale. Supporta una profondità di colore a 10 bit per gradienti più fluidi e maggiore spazio per la color grading in post-produzione. ByteDance afferma anche un'aderenza al prompt migliore del 20%, il che significa meno generazioni prima di ottenere un risultato utilizzabile.
L'audio è ora co-processato all'interno dello stesso spazio latente dei segnali visivi, producendo sincronizzazione nativa tra le azioni sullo schermo e i loro effetti sonori corrispondenti. Una nuova funzione di anteprima in 3D a scatola bianca consente ai creatori di generare animazioni a bassa fedeltà prima di impegnarsi in un rendering di qualità completa. Insieme, queste funzionalità posizionano il modello come uno strumento di produzione piuttosto che come un generatore di novità.
L'annuncio arriva tre mesi dopo che ByteDance è stata costretta ad aggiungere watermarking e protezioni IP a Seedance 2.0 a seguito di lettere di cessazione e desistenza da Disney, Warner Bros Discovery, Paramount e Netflix. Un deepfake virale di Tom Cruise che combatte Brad Pitt su un tetto ha suscitato una denuncia formale dall'Associazione Cinematografica e un rimprovero da SAG-AFTRA.
ByteDance ha sospeso il lancio globale a metà marzo e non lo ha ripreso tramite CapCut fino alla fine di marzo, con filtri di blocco facciale, watermark C2PA e rilevamento di personaggi protetti da copyright in atto. Non è stata fornita alcuna tempistica per rendere disponibile il nuovo modello negli Stati Uniti.
Il contesto competitivo è cambiato drasticamente da febbraio. OpenAI ha chiuso Sora a marzo dopo che lo strumento video ha raggiunto circa un milione di utenti e ha riportato costi di circa un milione di dollari al giorno per funzionare, generando poco più di due milioni di dollari di entrate totali.
Il Veo 3.1 di Google ha riempito gran parte del vuoto, offrendo output nativo in 4K, generazione audio e fino a tre immagini di riferimento per il controllo dello stile. Ma il nuovo modello di ByteDance supera sostanzialmente la capacità di input di riferimento di Veo, accettando 50 input rispetto ai tre di Veo, un divario che conta per i flussi di lavoro professionali.
Il mercato della generazione video AI si è frammentato rapidamente, con modelli cinesi che si muovono più velocemente sugli strumenti di produzione rispetto ai concorrenti occidentali. Piattaforme di terze parti come AI Studio di Reallusion hanno già costruito pipeline professionali attorno al modello predecessore, e lo strumento di quarta generazione di Runway è uscito dalla top 10 di Artificial Analysis.
Se il nuovo modello possa raggiungere i mercati globali senza riaccendere le battaglie sul copyright che hanno bloccato il suo predecessore rimane la domanda centrale. ByteDance ha il modello, la distribuzione attraverso i 400 milioni di utenti attivi mensili di CapCut e l'integrazione verticale dalla generazione all'editing fino alla condivisione. Ciò che non ha ancora è un accordo con Hollywood, e ogni funzionalità che rende il modello più capace aumenta anche le scommesse di quel conflitto irrisolto.
Altri articoli
ByteDance svela Seedance 2.5, un modello video AI nativo 4K di 30 secondi che accetta 50 input di riferimento.
ByteDance ha annunciato Seedance 2.5 alla sua conferenza di Pechino, generando clip native 4K di 30 secondi da un massimo di 50 input di riferimento, con lancio pubblico a luglio.
