EuroBERT: l’innovativo modello encoder multilingue ad alte prestazioni

EuroBERT

Hugging Face, in collaborazione con importanti istituzioni di ricerca e partner industriali, ha presentato EuroBERT, un modello di codifica multilinguistico all’avanguardia progettato per migliorare le prestazioni nelle lingue europee e in quelle più diffuse a livello globale.

Ottimizzato per attività a livello di documento, EuroBERT supporta sequenze di testo lunghe fino a 8.192 token ed eccelle nel retrieval multilinguistico, nella classificazione, nella regressione e persino nel ragionamento matematico e sul codice.

AMD e CINES hanno contribuito a questo innovativo progetto fornendo un supporto tecnologico fondamentale, che ha permesso un addestramento e un’implementazione efficienti dell’architettura avanzata di EuroBERT.

Caratteristiche principali:

  • Copertura multilingue: addestrato su 5 trilioni di token in 15 lingue.
  • Architettura innovativa: si caratterizza per l’attenzione alle query raggruppate e per l’integrazione di rotary position embedding per una maggiore efficienza.
  • Accesso aperto: i modelli, il framework di addestramento e i dataset di EuroBERT sono a disposizione di ricercatori e sviluppatori per essere esaminati e ulteriormente sviluppati.
  • Supporto tecnologico: l’esperienza di AMD ha agevolato l’ottimizzazione dei processi di addestramento di EuroBERT, garantendo scalabilità ed efficienza.
  • Miglioramento delle prestazioni: sfruttando l’avanzato hardware di AMD, EuroBERT ha raggiunto performance eccellenti in molteplici attività di elaborazione del linguaggio naturale (NLP) in contesti multilingue.

EuroBERT segue una pipeline di training in due fasi:

  • Pretraining: Il modello apprende le strutture linguistiche da un corpus massivo utilizzando un obiettivo masked language modeling (MLM) (MLM), sfruttando dati multilingue di alta qualità.
  • Fase di Annealing: Il mix di dati viene aggiustato e il training viene messo a punto per ottenere prestazioni ottimali a valle. Gli aggiustamenti comprendono la riduzione del rapporto di mascheramento e la modifica della distribuzione dei dati.

Applicando questo approccio, afferma il team, EuroBERT garantisce un’elevata adattabilità a diversi compiti di NLP, mantenendo una forte generalizzazione.

Dal punto di vista della performance, il team sostiene che EuroBERT ha ottenuto risultati all’avanguardia su una serie di compiti NLP multilingue.

Per favorire la ricerca e le applicazioni reali, è stata rilasciata in open-source l’intera famiglia EuroBERT, compresi:

  • checkpoint del modello (210M, 610M e 2.1B parametri);
  • snapshot intermedi di addestramento per la riproducibilità;
  • framework di training e composizione del set di dati.

Per maggiori informazioni, e per i link al modello, al paper e al codice, nonché per i risultati dei benchmark, è possibile consultare il blog completo su Hugging Face.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome