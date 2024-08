Gli sviluppatori di AI generativa devono in genere affrontare un compromesso tra dimensioni del modello e accuratezza, ma un nuovo language model rilasciato da NVIDIA promette di offrire il meglio di entrambi, fornendo una precisione all’avanguardia in un formato compatto.

Mistral-NeMo-Minitron 8B – una versione miniaturizzata del modello aperto Mistral NeMo 12B rilasciato da Mistral AI e NVIDIA il mese scorso – è abbastanza piccolo da poter essere eseguito su una workstation dotata di NVIDIA RTX, pur eccellendo in diversi benchmark per chatbot, assistenti virtuali, generatori di contenuti e strumenti educativi dotati di AI. I modelli Minitron sono distillati da NVIDIA utilizzando NVIDIA NeMo, una piattaforma end-to-end per lo sviluppo di AI generativa custom.

“Abbiamo combinato due diversi metodi di ottimizzazione dell’AI: il pruning per ridurre i 12 miliardi di parametri di Mistral NeMo a 8 miliardi e la distillazione per migliorare la precisione“, ha dichiarato Bryan Catanzaro, vicepresidente della ricerca applicata sul deep learning di NVIDIA. “In questo modo, Mistral-NeMo-Minitron 8B offre una precisione paragonabile a quella del modello originale a un costo computazionale inferiore“.

A differenza delle loro controparti più grandi, spiega NVIDIA, i modelli linguistici di piccole dimensioni possono essere eseguiti in tempo reale su workstation e laptop. Questo rende più facile per le organizzazioni con risorse limitate implementare capacità di AI generativa nella loro infrastruttura, ottimizzando al contempo i costi, l’efficienza operativa e il consumo energetico. L’esecuzione dei modelli linguistici in locale sui dispositivi edge offre anche vantaggi in termini di sicurezza, poiché i dati non devono essere trasferiti a un server da un dispositivo edge.

Gli sviluppatori possono iniziare con Mistral-NeMo-Minitron 8B impacchettato come microservizio NVIDIA NIM con un’API standard, oppure possono scaricare il modello da Hugging Face. Un NVIDIA NIM scaricabile, che può essere implementato su qualsiasi sistema accelerato da GPU in pochi minuti, sarà disponibile a breve, ha annunciato l’azienda.

Ulteriori informazioni sono disponibili nel blog di NVIDIA.

NVIDIA ha annunciato anche il suo primo small language model (SLM) on-device alimentato localmente da RTX AI, Nemotron-4 4B Instruct.