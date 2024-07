Mistral AI ha annunciato Mistral Large 2, la nuova generazione del modello di punta della società francese specializzata in AI generativa. Rispetto al suo predecessore, spiega il team di sviluppo, Mistral Large 2 è significativamente più capace nella generazione di codice, nella matematica e nel ragionamento. Inoltre, offre un supporto multilingue molto più esteso e capacità avanzate di function calling.

Mistral AI afferma che quest’ultima generazione continua a spingere oltre i confini in termini di efficienza dei costi, velocità e prestazioni. Il nuovo modello Mistral Large 2 è esposto sulla Plateforme e arricchito di nuove funzionalità per facilitare la realizzazione di applicazioni AI innovative.

Mistral Large 2 ha una finestra contestuale da 128k e supporta decine di lingue tra cui francese, tedesco, spagnolo, italiano, portoghese, arabo, hindi, russo, cinese, giapponese e coreano, oltre a più di 80 linguaggi di programmazione tra cui Python, Java, C, C++, JavaScript e Bash.

Il modello di nuova generazione è stato progettato per l’inferenza su un singolo nodo e per le applicazioni a contesto lungo: la sua dimensione di 123 miliardi di parametri gli consente di funzionare con un elevato throughput su un singolo nodo. Mistral Large 2 è stato rilasciato sotto la Mistral Research License, che ne consente l’uso e la modifica per scopi di ricerca e non commerciali. Per l’uso commerciale di Mistral Large 2, che richiede il deployment autonomo, è necessario acquistare una Mistral Commercial License contattando l’azienda.

Secondo il team, Mistral Large 2 stabilisce una nuova frontiera in termini di rapporto tra prestazioni e costi di servizio sulle metriche di valutazione. In particolare, su MMLU, la versione preaddestrata raggiunge un’accuratezza dell’84,0% e stabilisce un nuovo punto sulla curva di Pareto di prestazioni/costi dei modelli open.

Dopo l’esperienza con Codestral 22B e Codestral Mamba, l’azienda ha addestrato Mistral Large 2 su un’ampia proporzione di codice. Mistral Large 2 – afferma il team – supera di gran lunga il precedente Mistral Large e si comporta alla pari con modelli allo stato dell’arte come GPT-4o, Claude 3 Opus e Llama 3 405B.

Uno sforzo significativo è stato dedicato anche al miglioramento delle capacità di ragionamento del modello. Uno dei punti chiave dell’addestramento è stato quello di ridurre al minimo la tendenza del modello ad avere “allucinazioni” o a generare informazioni plausibili, ma di fatto errate o irrilevanti. Questo obiettivo è stato raggiunto – afferma il team – mettendo a punto il modello in modo che sia più cauto e perspicace nelle sue risposte, assicurando che fornisca risultati affidabili e accurati.

Inoltre, il nuovo Mistral Large 2 è addestrato a riconoscere quando non riesce a trovare soluzioni o non dispone di informazioni sufficienti per fornire una risposta sicura. Questo impegno per l’accuratezza si riflette nel miglioramento delle prestazioni del modello su popolari benchmark matematici, sottolinea Mistral AI, a dimostrazione delle sue migliori capacità di ragionamento e di risoluzione dei problemi.

Il team ha anche migliorato drasticamente le capacità di Mistral Large 2 di seguire le istruzioni e di conversare. L’azienda sostiene che il nuovo Mistral Large 2 è particolarmente bravo a seguire istruzioni precise e a gestire lunghe conversazioni a più turni.

Il team mette anche in evidenza che in alcuni benchmark, la generazione di risposte lunghe tende a migliorare i punteggi; tuttavia, in molte applicazioni aziendali, la concisione è fondamentale: le generazioni degli short model facilitano interazioni più rapide e sono più convenienti per l’inferenza. Per questo motivo, il team si è impegnato a fondo per garantire che le generazioni restino concise e sul punto, ogni volta che è possibile.

Una gran parte dei casi d’uso aziendali oggi comporta il lavoro con documenti multilingue. Mentre la maggior parte dei modelli è incentrata sull’inglese, il nuovo Mistral Large 2 è stato addestrato su un’ampia percentuale di dati multilingue. In particolare, eccelle in inglese, francese, tedesco, spagnolo, italiano, portoghese, olandese, russo, cinese, giapponese, coreano, arabo e hindi.

Mistral Large 2 è poi dotato di capacità di chiamata e recupero di funzioni migliorate ed è stato sottoposto a un addestramento che gli consente di eseguire in modo proficuo chiamate di funzioni sia parallele che sequenziali, consentendogli di fungere da motore per applicazioni aziendali complesse.

È possibile utilizzare Mistral Large 2 tramite la Plateforme – la developer platform ospitata sull’infrastruttura di Mistral – e testarlo su le Chat. I pesi per il modello istruito sono disponibili sul sito di Mistral AI e sono anche ospitati su HuggingFace.

L’azienda sta anche collaborando con i principali fornitori di servizi cloud per portare il nuovo Mistral Large 2 a un pubblico globale. In particolare, sta ampliando la partnership con Google Cloud Platform per portare i modelli di Mistral AI su Vertex AI tramite una Managed API. I migliori modelli di Mistral AI sono ora disponibili su Vertex AI, oltre che su Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.