IBM ha annunciato l’aggiunta dell’ultima generazione di modelli aperti di Meta, Llama 4, a watsonx.ai. Llama 4 Scout e Llama 4 Maverick, i primi modelli MoE (mixture of experts) rilasciati da Meta, offrono prestazioni multimodali di frontiera, velocità elevate, costi contenuti e una lunghezza del contesto leader del settore.
Il rilascio di Llama 4, sottolinea IBM, inaugura una nuova era per la serie Llama, introducendo sia un’entusiasmante evoluzione dell’architettura Llama sia un approccio innovativo all’integrazione di diversi tipi di modalità di dati – tra cui testo, immagini e video – molto prima nel processo rispetto ai modelli addestrati in modo convenzionale. Entrambi i nuovi modelli supportano un’ampia gamma di casi d’uso text-in, text-out e image-in, text-out.
Con l’introduzione di queste ultime offerte di Meta, IBM supporta ora un totale di 13 modelli Meta nella vasta libreria di modelli di base disponibili in watsonx.ai. In linea con la strategia aperta e multi-modello di IBM per l’AI generativa, l’azienda continua a fornire ai clienti della sua piattaforma i modelli open più performanti attualmente sul mercato.
L’architettura “mixture of experts” (MoE) – spiega IBM – mira a bilanciare la capacità di conoscenza dei modelli più grandi con l’efficienza di inferenza dei modelli più piccoli, suddividendo gli strati della rete neurale del modello in più “esperti”. Invece di attivare ogni parametro del modello per ogni token, i modelli MoE utilizzano una funzione di gating che attiva solo gli “esperti” più adatti a elaborare quel token.
Llama 4 Scout, il più piccolo dei due nuovi modelli con un numero totale di parametri pari a 109B, è suddiviso in 16 esperti. In fase di inferenza, ha un numero di parametri attivi di soli 17B, il che gli consente di servire più utenti in parallelo. Addestrato su 40 trilioni di token di dati, Llama 4 Scout offre prestazioni che rivaleggiano o superano quelle di modelli con un numero di parametri attivi significativamente maggiore, mantenendo bassi i costi e la latenza, afferma IBM. Nonostante i ridotti requisiti di calcolo, Llama 4 Scout ha battuto modelli analoghi nei benchmark di coding, ragionamento, contesto lungo e comprensione delle immagini.
Llama 4 Maverick è suddiviso in 128 esperti, che attingono alla conoscenza dei suoi 400B parametri totali, pur mantenendo lo stesso numero di 17B parametri attivi di Llama 4 Scout. Secondo l’annuncio ufficiale di Meta AI, Llama 4 Maverick batte GPT-4o di OpenAI e Gemini 2.0 Flash di Google “su tutta la linea” su un’ampia gamma di benchmark multimodali e rivaleggia con le prestazioni di ragionamento e coding del ben più grande DeepSeek-V3 su compiti di ragionamento e programmazione.
Inoltre, Llama 4 Scout offre una finestra di contesto di 10 milioni di token, la migliore del settore, mantenendo un’eccellente precisione su benchmark a contesto lungo come Needle-in-a-haystack (NiH). Questo balzo in avanti senza precedenti – afferma IBM – apre interessanti opportunità per la sintesi di più documenti, il ragionamento su vaste basi di codice e la personalizzazione attraverso un’ampia memoria dell’attività dell’utente.
Mentre i modelli linguistici di grandi dimensioni (LLM) vengono convenzionalmente pre-addestrati esclusivamente su dati testuali, per poi essere adattati ad altre modalità di dati (come le immagini) durante il post-addestramento, i modelli di Llama 4 sono stati progettati con una “multimodalità nativa”. Questo ha permesso a Meta di pre-addestrare congiuntamente i modelli con grandi quantità di dati testuali, immagini e video non etichettati, arricchendo in modo efficiente i modelli con conoscenze integrate provenienti da fonti diverse.
L’addestramento dei modelli di Llama 4 ha incorporato la “fusione” di diversi tipi di dati nelle prime fasi della pipeline di elaborazione, integrando senza soluzione di continuità i token di testo e di visione per consentire l’addestramento come un unico sistema unificato. Di conseguenza, spiega IBM, Llama 4 Maverick e Llama 4 Scout offrono prestazioni eccellenti in una serie di compiti di comprensione delle immagini, in grado di rispondere a richieste di testo relative a più immagini contemporaneamente o di ancorare le risposte del modello a regioni specifiche di una singola immagine.
Gli sviluppatori e le aziende possono selezionare il modello Llama 4 che preferiscono dall’ampio catalogo di modelli foundation su IBM watsonx.ai, quindi fare fine-tune, distillarlo e distribuirlo in ambienti cloud, on-premise o edge a loro scelta. IBM migliora ulteriormente questa flessibilità con la sua infrastruttura AI avanzata, la perfetta integrazione con i framework di agenti e la compatibilità con i database vettoriali.
IBM watsonx semplifica lo sviluppo con una suite di strumenti di codice, low-code e no-code in uno studio di livello enterprise che supporta l’intero ciclo di vita dell’IA e favorisce la collaborazione tra i team. IBM watsonx offre anche una solida governance dell’IA end-to-end, garantendo flussi di lavoro responsabili e accelerati. Sfruttando la sua profonda esperienza nella trasformazione tecnologica, la partnership di IBM con Meta offre strategie personalizzate per affrontare in modo efficiente ed efficace le esigenze specifiche delle aziende.









