Nvidia rilascia Granary: dataset da 1 milione di ore per l’AI vocale in 25 lingue europee

Tra i circa 7.000 idiomi parlati nel mondo, solo una minima frazione è supportata dai language model di intelligenza artificiale: NVIDIA affronta questa sfida con un nuovo dataset e modelli che favoriscono lo sviluppo di sistemi di speech recognition e translation AI di alta qualità per 25 lingue europee — incluse quelle con risorse limitate come croato, estone e maltese.

Questi strumenti – sottolinea NVIDIA– consentono agli sviluppatori di scalare più facilmente le applicazioni di AI, rendendole in grado di supportare utenti globali con tecnologie vocali veloci e accurate, pensate per scenari di produzione come chatbot multilingue, voice agent per il customer service e servizi di traduzione quasi in tempo reale. Tra le novità principali:

  • Granary: un corpus open-source di dataset vocali multilingue che raccoglie circa 1 milione di ore di audio, di cui quasi 650.000 ore dedicate allo speech recognition e oltre 350.000 ore alla speech translation.
  • NVIDIA Canary-1b-v2: un modello da un miliardo di parametri addestrato su Granary, progettato per una trascrizione ad alta qualità delle lingue europee e per la traduzione tra l’inglese e le oltre venti lingue supportate. È attualmente in cima alla leaderboard di Hugging Face per accuratezza nello speech recognition multilingue.
  • NVIDIA Parakeet-tdt-0.6b-v3: un modello ottimizzato da 600 milioni di parametri, pensato per trascrizioni in tempo reale o su grandi volumi nelle lingue supportate da Granary. Detiene il throughput più elevato tra i modelli multilingue su Hugging Face, misurato come rapporto tra durata dell’audio trascritto e tempo di calcolo, evidenzia NVIDIA.

Il paper che descrive Granary viene presentato a Interspeech, conferenza internazionale sul language processing che si tiene nei Paesi Bassi dal 17 al 21 agosto. Sia il dataset che i nuovi modelli Canary e Parakeet sono già disponibili su Hugging Face.

Per sviluppare il dataset Granary, il team di speech AI di NVIDIA ha collaborato con ricercatori della Carnegie Mellon University e della Fondazione Bruno Kessler. L’audio non etichettato è stato elaborato attraverso una pipeline innovativa basata sul toolkit NVIDIA NeMo Speech Data Processor, che lo ha trasformato in dati strutturati e di alta qualità.

nvidia speech-transcriptionQuesta pipeline – spiega NVIDIA – ha consentito ai ricercatori di convertire dati vocali pubblici in un formato utilizzabile per l’addestramento di modelli AI, senza ricorrere a un’annotazione manuale ad alta intensità di risorse. L’intera pipeline è disponibile in open source su GitHub.

Grazie ai dati puliti e già pronti all’uso di Granary, gli sviluppatori possono accelerare la costruzione di modelli in grado di affrontare compiti di trascrizione e traduzione in quasi tutte le 24 lingue ufficiali dell’Unione Europea, oltre che in russo e ucraino.

Per le lingue europee sottorappresentate nei dataset annotati manualmente, Granary rappresenta una risorsa cruciale per sviluppare tecnologie vocali più inclusive, in grado di riflettere meglio la diversità linguistica del continente: il tutto richiedendo una quantità inferiore di dati di training.

Nel paper presentato a Interspeech, il team ha dimostrato che, rispetto ad altri dataset popolari, Granary richiede circa la metà dei dati di training per raggiungere lo stesso livello di accuratezza nei task di automatic speech recognition (ASR) e automatic speech translation (AST).

I nuovi modelli Canary e Parakeet rappresentano esempi concreti del tipo di soluzioni che gli sviluppatori possono realizzare con Granary, personalizzandole in base alle applicazioni target. Canary-1b-v2 è ottimizzato per la massima accuratezza su task complessi, mentre Parakeet-tdt-0.6b-v3 è progettato per scenari ad alta velocità e bassa latenza.

Condividendo la metodologia alla base del dataset Granary e di questi due modelli, NVIDIA mette a disposizione della community globale di sviluppatori di speech AI un workflow di data processing adattabile ad altri modelli di ASR o AST, o estendibile a lingue aggiuntive, accelerando così l’innovazione nel settore.

Rilasciato con una licenza permissiva, Canary-1b-v2 amplia il supporto della famiglia Canary da 4 a 25 lingue. Il modello offre qualità di trascrizione e traduzione paragonabile a quella di modelli tre volte più grandi, garantendo al contempo un’inferenza fino a 10 volte più rapida, afferma NVIDIA.

Lo sviluppo dei modelli di speech AI è stato accelerato grazie a NVIDIA NeMo, una suite software modulare per la gestione dell’intero ciclo di vita degli AI agent. In particolare, NeMo Curator ha permesso al team di filtrare esempi sintetici dai dati di origine, garantendo che solo campioni di alta qualità venissero utilizzati per l’addestramento. Parallelamente, il toolkit NeMo Speech Data Processor è stato impiegato per compiti come l’allineamento tra trascrizioni e file audio, oltre alla conversione dei dati nei formati richiesti.

Parakeet-tdt-0.6b-v3 privilegia il throughput, risultando in grado di trascrivere segmenti audio da 24 minuti in un singolo passaggio di inferenza. Il modello rileva automaticamente la lingua dell’audio in input e produce la trascrizione senza necessità di ulteriori prompt.

Sia Canary che Parakeet offrono nei loro output punteggiatura accurata, corretta capitalizzazione e timestamp a livello di parola.

Per ulteriori dettagli è possibile consultare la documentazione su GitHub e iniziare a lavorare con Granary direttamente su Hugging Face.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome