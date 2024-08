Microsoft rinnova la sua sfida a Google, Facebook, OpenAI, Mistral AI e gli altri player principali nel campo dell’intelligenza artificiale, rilasciando i nuovi modelli leggeri e all’avanguardia della famiglia Phi.

Phi-3.5-mini è un modello aperto, leggero e allo stato dell’arte, spiega Microsoft, costruito sui set di dati utilizzati per Phi-3 – dati sintetici e siti web filtrati disponibili pubblicamente – con un’attenzione particolare ai dati di alta qualità e alla densità di ragionamento. È un modello di 3.8B parametri e supporta un contesto di 128K. Il modello è stato sottoposto a un rigoroso processo di miglioramento, che ha incorporato sia il fine-tuning supervisionato sia ottimizzazioni per garantire una precisa aderenza alle istruzioni e solide misure di sicurezza, sottolinea Microsoft.

Phi-3.5-MoE presenta caratteristiche di base analoghe ed è multilingual; è dotato di 128K di lunghezza del contesto (in token). Mentre Phi-3.5-mini ha un tempo di training di 10 giorni e training data di 3.4T token, Phi-3.5-MoE è addestrato su 4.9T token per 23 giorni.

Phi-3.5-vision – come lascia intendere il nome – è un modello multimodale, anch’esso aperto, leggero e all’avanguardia; in questo caso i dati di addestramento includono sia testo che dati di tipo vision. La versione multimodale ha 4.2B parametri ed è in grado di supportare contesti di 128K di lunghezza (in token). Il training è stato effettuato con 256 GPU A100-80G per 6 giorni su 500B di token (tra vision e testo).

I tre nuovi modelli sono stati rilasciati da Microsoft su Hugging Face sotto licenza MIT License. Microsoft ha pubblicato anche una serie di benchmark condotti sui suoi nuovi modelli, che mostrano come essi siano altamente competitivi quando non superiori ai competitor della stessa categoria.

Microsoft indica i modelli Phi-3.5-mini e Phi-3.5-MoE come destinati a un uso commerciale e di ricerca in più lingue, per sistemi e applicazioni di intelligenza artificiale di uso generale che richiedono o prevedono ambienti con vincoli di memoria o computing, scenari con vincoli di latenza, forti capacità di ragionamento (in particolare codice, matematica e logica). Questi modelli sono progettati per accelerare la ricerca sui modelli linguistici e multimodali, da utilizzare come elemento costitutivo per funzioni alimentate dall’AI generativa.

Per quel che riguarda Phi-3.5-vision, i casi d’uso includono un utilizzo commerciale e di ricerca in lingua inglese, per sistemi e applicazioni di intelligenza artificiale di uso generale con funzionalità di input visive e testuali che richiedono anche comprensione di immagini generiche, optical character recognition, comprensione di grafici e tabelle, confronto di immagini multiple, riassunto di immagini o filmati multipli.