Il modello linguistico di grandi dimensioni del progetto di ricerca OpenGPT-X è ora disponibile per il download su Hugging Face: “Teuken-7B” è stato addestrato da zero in tutte le 24 lingue ufficiali dell’Unione Europea (UE) e contiene sette miliardi di parametri.

Ricercatori e aziende possono sfruttare questo modello open source commercialmente utilizzabile per le proprie applicazioni di intelligenza artificiale (AI). Finanziato dal Ministero Federale Tedesco per gli Affari Economici e l’Azione per il Clima (BMWK), il consorzio OpenGPT-X – guidato dai Fraunhofer Institutes for Intelligent Analysis and Information Systems IAIS e for Integrated Circuits IIS – ha sviluppato un modello linguistico di grandi dimensioni che è open source e ha una prospettiva decisamente europea.

“Nel progetto OpenGPT-X, abbiamo trascorso gli ultimi due anni a ricercare le tecnologie sottostanti per i modelli di base e i modelli di addestramento dell’IA di grandi dimensioni con i principali partner dell’industria e della ricerca. Siamo lieti di poter rendere liberamente disponibile il nostro modello ‘Teuken-7B’, fornendo un’alternativa pubblica e basata sulla ricerca da utilizzare in ambito accademico e industriale”, afferma il Prof. Stefan Wrobel, Direttore del Fraunhofer IAIS. “Il nostro modello ha dimostrato le sue capacità in un’ampia gamma di lingue e ci auguriamo che il maggior numero possibile di persone lo adatti e lo sviluppi per il proprio lavoro e le proprie applicazioni. In questo modo, vogliamo contribuire, sia all’interno della comunità scientifica che insieme ad aziende di diversi settori, alla crescente domanda di soluzioni di IA generativa trasparenti e personalizzabili.”

Teuken-7B – sottolinea il team – è attualmente uno dei pochi modelli linguistici di grandi dimensioni sviluppati multilingue da zero. Contiene circa il 50% di dati di pre-training non inglesi ed è stato addestrato in tutte le 24 lingue ufficiali europee. Ha dimostrato di essere stabile e affidabile nelle sue prestazioni in più lingue, affermano i ricercatori. Ciò rappresenta un valore aggiunto, in particolare per le aziende e le organizzazioni internazionali con esigenze di comunicazione, prodotti e servizi multilingue. Il modello open source consente ad aziende e organizzazioni di eseguire i propri modelli personalizzati in applicazioni reali. I dati aziendali sensibili possono rimanere all’interno dell’azienda.

Oltre all’addestramento del modello, il team di OpenGPT-X ha affrontato una serie di quesiti di ricerca, come ad esempio come addestrare e gestire modelli linguistici AI multilingue in modo più efficiente dal punto di vista energetico e dei costi. A tal fine, il progetto ha sviluppato un “tokenizer” multilingue. Il compito di un tokenizer è quello di scomporre le parole in singoli componenti: meno token ci sono, più un modello linguistico può generare la risposta in modo (energeticamente) efficiente e veloce. Il tokenizer sviluppato – dichiara il team – porta a una riduzione dei costi di training rispetto ad altri tokenizer multilingue come Llama3 o Mistral. Questo è particolarmente utile per le lingue europee con strutture di parole più lunghe, come il tedesco, il finlandese o l’ungherese.

Il progetto OpenGPT-X è stato finanziato dal programma BMWK “Applicazioni innovative e pratiche e spazi dati nell’ecosistema digitale Gaia-X”. Teuken-7B è accessibile tramite l’infrastruttura Gaia-X. Gli attori dell’ecosistema Gaia-X possono così sviluppare applicazioni linguistiche innovative e trasferirle in scenari applicativi concreti nei rispettivi domini. A differenza delle soluzioni cloud esistenti, Gaia-X è un ecosistema federato che consente ai fornitori di servizi e ai proprietari dei dati di connettersi. I dati rimangono al sicuro presso i proprietari e vengono condivisi solo a condizioni definite.

“Sono entusiasta di assistere alla pubblicazione odierna di Teuken-7B, un modello linguistico di grandi dimensioni basato su Gaia-X, e vorrei congratularmi con il progetto OpenGPT-X per aver raggiunto questo importante traguardo. Una caratteristica particolare di Teuken-7B è che consente l’uso sicuro di dati aziendali sensibili, in quanto gli standard Gaia-X garantiscono l’archiviazione e l’elaborazione dei dati in conformità con le più severe normative europee in materia di protezione e sicurezza dei dati. Questo nuovo modello e innovazioni come questa rafforzano la sovranità digitale, la competitività e la resilienza della Germania e dell’Europa. Per questo motivo il Ministero Federale per gli Affari Economici e l’Azione per il Clima sta finanziando il progetto con circa 14 milioni di euro in totale”, afferma la dott.ssa Franziska Brantner, Segretario di Stato Parlamentare del BMWK.

Il Prof. Bernhard Grill, Direttore del Fraunhofer IIS, sottolinea il potenziale del modello per le applicazioni critiche per la sicurezza: “Con questo modello linguistico sviluppato in modo indipendente, i partner del progetto dimostrano la loro capacità di generare i propri modelli di grandi dimensioni. L’accesso a un modello linguistico di grandi dimensioni consente applicazioni che offrono un controllo molto maggiore su questa tecnologia, senza la necessità di componenti poco trasparenti di terze parti, ad esempio in settori critici per la sicurezza come l’automotive, la robotica, la medicina e la finanza. Addestrandosi su dati pertinenti a un’applicazione specifica e utilizzando architetture specifiche per l’applicazione, le aziende possono creare soluzioni di IA personalizzate che non richiedono componenti ‘black box’”.

IA generativa da parte di un consorzio forte, con una prospettiva europea

Nello sviluppo del modello – dichiara il team – sono stati incorporati importanti risultati di ricerca del progetto OpenGPT-X, come strumenti e tecnologie per l’elaborazione di grandi quantità di dati, l’utilizzo di potenti infrastrutture HPC europee e l’esecuzione di un addestramento efficiente del modello. Teuken-7B è stato addestrato sul supercomputer JUWELS del Forschungszentrum Jülich. Oltre ai due Istituti Fraunhofer e al Forschungszentrum Jülich, i partner del consorzio includono il TU Dresden, il Centro di ricerca tedesco per l’intelligenza artificiale (DFKI), IONOS, Aleph Alpha, ControlExpert, Westdeutscher Rundfunk (WDR) e l’Associazione tedesca per l’intelligenza artificiale (KI Bundesverband). La tecnologia sviluppata in OpenGPT-X fornirà ai partner anche una base per addestrare i propri modelli in futuro.

“OpenGPT-X è un esempio di come le risorse di un progetto finanziato con fondi pubblici e gli sforzi di collaborazione di un ampio consorzio possano fornire una preziosa tecnologia di base, dall’infrastruttura di base al training dei modelli fino alle applicazioni produttive. Nell’interesse della tecnologia e della sovranità dei dati, è importante costruire su queste basi: La nostra speranza è che OpenGPT-X getti le basi per molte attività successive”, sottolinea Daniel Abbou, amministratore delegato della German AI Association e presidente dell’European AI Forum.

Il progetto di ricerca, lanciato all’inizio del 2022, è ormai prossimo al completamento. Si protrarrà fino al 31 marzo 2025 per consentire ulteriori ottimizzazioni e valutazioni dei modelli.

Gli sviluppatori interessati del mondo accademico e industriale possono scaricare gratuitamente Teuken-7B da Hugging Face e lavorare con esso nel proprio ambiente di sviluppo. Il modello è già stato ottimizzato per la chat attraverso il “tuning delle istruzioni”. La messa a punto delle istruzioni viene utilizzata per adattare modelli linguistici di grandi dimensioni in modo che il modello comprenda correttamente le istruzioni degli utenti, il che è importante quando si utilizzano i modelli nella pratica, ad esempio in un’applicazione di chat.

Teuken-7B è disponibile gratuitamente in due versioni: una per scopi esclusivamente di ricerca e una versione con licenza “Apache 2.0” che può essere utilizzata dalle aziende sia per scopi di ricerca che commerciali e integrata nelle loro applicazioni di intelligenza artificiale. Le prestazioni dei due modelli sono approssimativamente paragonabili, ma alcuni dei set di dati utilizzati per la messa a punto delle istruzioni precludono l’uso commerciale e non sono quindi stati utilizzati nella versione Apache 2.0.