Hugging Face rilascia il modello vision language più piccolo al mondo

Hugging Face

Hugging Face ha annunciato due nuove aggiunte alla famiglia SmolVLM, SmolVLM-256M e SmolVLM-500M: i 256M parametri del primo, lo rendono il Vision Language Model più piccolo al mondo, sottolinea il team.

Facendo tesoro di tutto ciò che ha imparato da SmolVLM 2B, il team si è concentrato su efficienza, data mixture e trade-off di progettazione. Questo lavoreo, evidenzia Hugging Face, ha portato a presentare una coppia di modelli che mantengono prestazioni multimodali elevate in una frazione del footprint.

SmolVLM-256M viene presentato da Hugging Face come il più piccolo Vision Language Model del mondo. SmolVLM-500M, il “fratello” da mezzo miliardo di parametri, secondo il teamn offre un significativo aumento delle prestazioni pur rimanendo super leggero.

Hugging FaceMa perché questa esigenza di modelli dalle dimensioni più piccole? Lo spiega la stessa Hugging Face, che sottolinea come, al rilascio di SmolVLM 2B, la risposta della comunità sia stata entusiastica: il modello è molto leggero, open-source e permissivo, nonché facile da integrare nei flussi di lavoro esistenti.

Ma il team voleva spingere questo approccio ancora più in là per chi lavora con dispositivi dalle riso4rse limitati, laptop consumer o anche potenzialmente con inferenze basate su browser. È qui che entrano in gioco i nuovi modelli da 256M e 500M. D’altra parte, per chi cerca di elaborare enormi quantità di dati, questi modelli possono funzionare a una frazione del costo del modello 2B.

Nell’ultimo anno Hugging Face ha addestrato due VLM da 80B e li ha ridotti a 8B. Poi, per SmolVLM, ha accettato la sfida di ridurre quel 2B. E ha imparato che poteva spingere tale frontiera molto più in là. Ora il team ritiene di poter dimostrare che a 256M e 500M si possono ancora ottenere grandi prestazioni. Il nuovo modello da 256M – mette in evidenza Hugging Face – è il più piccolo VLM mai realizzato, eppure supera le prestazioni del modello Idefics 80B di soli 17 mesi fa.

Hugging FaceCon soli 256 milioni di parametri, questo modello è il più piccolo VLM mai realizzato, e nonostante le sue dimensioni ridotte, ha una potenza sorprendente, afferma Hugging Face. È più che capace di svolgere molti compiti multimodali, tra cui:

  • Didascalie: Descrizione di immagini o brevi video.
  • Domande e risposte sui documenti: Rispondere a domande su PDF o testo scansionato.
  • Ragionamento visivo di base: Rispondere a domande su grafici o diagrammi.

Se si ha bisogno di maggiori prestazioni, pur mantenendo basso l’utilizzo della memoria, SmolVLM-500M è il compromesso da mezzo miliardo di parametri. È significativamente più piccolo della precedente versione 2B, ma riesce a ottenere punteggi su task come DocVQA e MMMU più vicini ai modelli più grandi. Il team ha anche riscontrato che questo modello è più robusto al prompting, il che lo rende più adatto out-of-the-box alla produzione. Ma entrambi i modelli si comportano bene quando vengono messi a punto.

Hugging FaceMaggiori informazioni sui nuovi modelli sono disponibili nel blog di Hugging Face.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome