NVIDIA ha rilasciato un potente modello IA open-source capace di competere con i sistemi proprietari di OpenAI e Google. La nuova famiglia di modelli linguistici multimodali NVLM 1.0, guidata dal NVLM-D-72B con 72 miliardi di parametri, dimostra prestazioni eccezionali in compiti di visione e linguaggio, migliorando anche le capacità puramente testuali.
Questo rilascio rappresenta una svolta significativa nel panorama dell’IA. Rendendo pubblicamente disponibili i pesi del modello e promettendo di rilasciare il codice di addestramento, NVIDIA si discosta dalla tendenza di mantenere chiusi i sistemi di IA avanzati. Questa decisione offre a ricercatori e sviluppatori un accesso senza precedenti a tecnologie all’avanguardia.
arxiv.org
Il modello NVLM-D-72B dimostra un’impressionante adattabilità nell’elaborazione di input visivi e testuali complessi. I ricercatori hanno fornito esempi che evidenziano la capacità del modello di interpretare meme, analizzare immagini e risolvere problemi matematici passo dopo passo.
In particolare, NVLM-D-72B migliora le sue prestazioni su compiti puramente testuali dopo l’addestramento multimodale. Mentre molti modelli simili vedono un calo delle prestazioni testuali, NVLM-D-72B ha aumentato la sua accuratezza di una media di 4,3 punti su benchmark testuali chiave.
La decisione di NVIDIA di rendere disponibile apertamente un modello così potente potrebbe accelerare la ricerca e lo sviluppo dell’IA in tutto il settore. Fornendo accesso a un modello che rivaleggia con i sistemi proprietari di aziende tecnologiche ben finanziate, NVIDIA potrebbe consentire a organizzazioni più piccole e ricercatori indipendenti di contribuire in modo più significativo ai progressi dell’IA.