ByteDance ha presentato OmniHuman-1, un nuovo framework di intelligenza artificiale in grado di trasformare una singola immagine in un video animato realistico. L’azienda ha rivelato la nuova IA in una , dimostrando le capacità dello strumento con diversi video demo, tuttavia lo strumento è ancora in fase di ricerca e non è stata annunciata una data di rilascio.
OmniHuman-1 ha dimostrato di riuscire a generare video più realistici rispetto ad altri modelli AI esistenti. Il sistema può creare movimenti umani e discorsi naturali partendo da input minimi: una singola immagine e un campione audio. Secondo i ricercatori di ByteDance, lo sviluppo ha richiesto l’addestramento dell’IA su 19.000 ore di filmati, elemento chiave che ha permesso di superare i metodi esistenti, che soffrono la mancanza di dati in alta qualità.
Il framework combina immagini, audio, pose del corpo e descrizioni testuali per garantire risultati accurati in vari scenari. Il team di ricerca ha generati con lo strumento (tutti decisamente realistici), tra cui personaggi animati, speaker TED e persino un filmato in bianco e nero di Albert Einstein che tiene una lezione davanti a una lavagna.
L’approccio di OmniHuman-1 sembra risolvere problemi comuni in altri video generati dall’IA, come i movimenti della bocca, le espressioni facciali e i gesti del corpo, che risultano più precisi e naturali.