Per generare video con l’IA basta una GPU da gaming da 6GB

FramePack è un’innovativa architettura neurale presentata questa settimana dal ricercatore Lvmin Zhang su GitHub. Grazie alla collaborazione con Maneesh Agrawala, dell’Università di Stanford, questa nuova architettura ha portato a una svolta significativa: creare video AI di alta qualità, e lunga durata, con risorse hardware notevolmente ridotte.

Il modello da 13 miliardi di parametri sviluppato con questa architettura riesce infatti a generare clip di un minuto intero utilizzando appena 6GB di memoria video, rendendo potenzialmente questa tecnologia accessibile a un pubblico molto più ampio.

La vera rivoluzione di FramePack risiede nel suo approccio al problema della memoria. Mentre i tradizionali modelli di diffusione video richiedono risorse crescenti all’aumentare della lunghezza del filmato, questa nuova architettura comprime intelligentemente i fotogrammi di input in un contesto temporale di lunghezza fissa. Questo permette di ridurre drasticamente il sovraccarico della GPU mantenendo alta la qualità del risultato. Gli autori affermano che i costi computazionali sono paragonabili a quelli della diffusione di immagini statiche, un notevole passo avanti rispetto ai modelli precedenti.

A differenza delle soluzioni basate su cloud, spesso costose e con limitazioni di accesso, FramePack punta a democratizzare la creazione di contenuti video AI portandola direttamente sui computer degli utenti. Il software richiede una GPU NVIDIA RTX serie 30, 40 o 50 con supporto per i formati di dati FP16 e BF16, mentre il supporto per architetture più datate come Turing o per hardware AMD/Intel non è stato ancora verificato. Anche Linux figura tra i sistemi operativi supportati.

Le prestazioni di FramePack variano significativamente in base all’hardware utilizzato. Con una RTX 4090 al top di gamma, gli utenti possono aspettarsi di generare circa 0,6 fotogrammi al secondo utilizzando l’ottimizzazione teacache. Ogni fotogramma viene visualizzato immediatamente dopo la generazione, offrendo un feedback visivo istantaneo che migliora notevolmente l’esperienza utente rispetto ai sistemi che richiedono l’attesa del completamento dell’intero processo.

Una delle caratteristiche distintive di questa architettura è la sua capacità di mitigare il fenomeno del “drifting”, un problema comune nei modelli di diffusione video dove la qualità tende a degradarsi progressivamente con l’aumentare della lunghezza del filmato. FramePack integra tecniche specifiche per mantenere la coerenza visiva anche in clip più lunghe, preservando la fedeltà dell’output.

FramePack sta rivoluzionando il modo in cui si possono generare video con l’IA localmente.

L’implementazione attuale sembra utilizzare un modello basato su Hunyuan, sebbene la documentazione di ricerca menzioni la possibilità di ottimizzare modelli pre-addestrati esistenti utilizzando l’architettura FramePack. Questo approccio apre interessanti prospettive per sviluppatori e ricercatori che potrebbero adattare i propri modelli a questa nuova struttura più efficiente.

Un limite attuale del sistema è il probabile cap a 30 FPS del modello impiegato, che potrebbe risultare insufficiente per alcune applicazioni professionali. Tuttavia, per la creazione di contenuti casual come GIF, meme o brevi clip creative, questa limitazione non rappresenta un ostacolo significativo. La vera conquista resta la possibilità di generare video AI direttamente sul proprio computer senza dipendere da servizi cloud esterni.

L’impatto di FramePack potrebbe estendersi ben oltre il mondo degli appassionati di tecnologia. Rendendo la generazione video AI accessibile con hardware di fascia media, questa innovazione potrebbe trasformare il panorama della creazione di contenuti digitali. La maggior parte delle moderne GPU RTX supera infatti i requisiti minimi di 6GB di memoria video, con l’eccezione della RTX 3050 4GB, rendendo questa tecnologia potenzialmente alla portata di milioni di utenti.

Gli sviluppatori hanno ottimizzato FramePack non solo per la generazione di video completi ma anche per applicazioni creative più leggere, posizionandolo come uno strumento versatile che potrebbe trovare spazio sia nel flusso di lavoro di content creator occasionali che di semplici appassionati in cerca di nuovi modi per esprimere la propria creatività attraverso l’intelligenza artificiale.