Cohere lancia Transcribe, il modello AI per trascrivere l’audio con maggiore accuratezza

26 Marzo 2026

Cohere annuncia Transcribe, un modello di riconoscimento vocale automatico (ASR, Automatic Speech Recognition) di nuova generazione, disponibile come open source e progettato per l’utilizzo in contesti enterprise. L’obiettivo è spingere al massimo l’accuratezza della trascrizione vocale in condizioni reali, mantenendo al tempo stesso caratteristiche adatte alla produzione, cioè all’impiego quotidiano in applicazioni e workflow aziendali.

Il modello rappresenta un primo passo nell’integrazione della voce all’interno degli ecosistemi AI: il parlato si sta infatti affermando come una modalità centrale in ambiti come la trascrizione di meeting, l’analisi delle conversazioni e i sistemi di assistenza clienti in tempo reale.

Architettura e funzionamento del modello

Transcribe, identificato come cohere-transcribe-03-2026, è basato su un’architettura encoder-decoder di tipo Conformer, cioè un modello che combina meccanismi di attenzione globale tipici dei Transformer con componenti convoluzionali, progettato per modellare in modo efficace sia il contesto linguistico sia le caratteristiche locali del segnale vocale.

In termini operativi, il sistema integra due componenti: una parte iniziale (encoder) che analizza il segnale audio e ne estrae rappresentazioni acustiche rilevanti, e una seconda parte (decoder) che genera sequenze di token testuali a partire da tali rappresentazioni.

L’audio in ingresso viene convertito in uno spettrogramma log-Mel, una rappresentazione del segnale che descrive come l’energia del suono si distribuisce nel tempo e nelle diverse frequenze, utilizzando una scala (Mel) che approssima la percezione uditiva umana. Su questa base, il modello produce la trascrizione.

Con una dimensione di circa 2 miliardi di parametri, Transcribe utilizza un encoder Conformer per la rappresentazione acustica e un decoder Transformer per la generazione dei token. L’addestramento è stato eseguito da zero con un approccio supervisionato basato su cross-entropy, con un’ottimizzazione esplicita del Word Error Rate (WER), la metrica che misura le differenze tra trascrizione e riferimento in termini di inserzioni, cancellazioni e sostituzioni.

Prestazioni: riferimento per l’accuratezza

Sul piano delle performance, Cohere indica un WER medio del 5,42%, valore che rappresenta il principale indicatore di qualità nei sistemi ASR: più il WER è basso, più la trascrizione è fedele all’audio originale.

Transcribe si colloca al primo posto nella Hugging Face Open ASR Leaderboard, benchmark di riferimento che confronta modelli di riconoscimento vocale su dataset standardizzati. Il risultato lo posiziona davanti a modelli sia open sia proprietari, tra cui Whisper Large v3 ed ElevenLabs Scribe v2.

Il dato è particolarmente significativo perché deriva da test su scenari complessi e realistici, inclusi ambienti con più parlanti, sale riunioni con acustica non ottimale e varietà di accenti. Le valutazioni umane confermano queste prestazioni, evidenziando una capacità consistente di preservare il significato, evitare errori interpretativi e produrre trascrizioni utilizzabili in contesti operativi.

Multilingua e generalizzazione

Il modello supporta 14 lingue, tra cui italiano, inglese, francese, tedesco e spagnolo, oltre a lingue asiatiche e arabe. Le valutazioni comparative indicano prestazioni competitive anche oltre l’inglese, segnalando una buona capacità di generalizzazione su contesti linguistici diversi, requisito chiave per organizzazioni globali.

Throughput e vincoli di produzione

Accanto all’accuratezza, un parametro determinante è il throughput, cioè la quantità di audio che il sistema riesce a elaborare in un determinato intervallo di tempo. Questo viene misurato tramite RTFx (real-time factor), un indicatore che esprime quante volte più velocemente rispetto alla durata reale dell’audio il modello è in grado di processare il segnale: valori superiori a 1 indicano elaborazione più rapida del tempo reale.

Transcribe si posiziona su un equilibrio tra accuratezza e velocità, combinando basso WER con throughput elevato. Questo bilanciamento è essenziale nei contesti produttivi, dove latenza, scalabilità e costi computazionali incidono direttamente sull’efficienza operativa e sull’esperienza utente.

Open source, deployment e controllo dei dati

Il modello è distribuito con licenza Apache 2.0 e open weights, cioè con parametri accessibili, permettendo alle aziende di eseguirlo localmente. Questo consente di trattare dati sensibili senza trasferirli su infrastrutture esterne, mantenendo il controllo su sicurezza e compliance.

I requisiti hardware sono progettati per essere compatibili con GPU di dimensioni contenute, rendendo possibile anche l’esecuzione in ambienti edge, cioè vicino alla fonte del dato.

In alternativa, Transcribe è disponibile tramite Model Vault, la piattaforma gestita di Cohere per l’inferenza dei modelli in cloud privato, che consente deployment a bassa latenza senza gestione diretta dell’infrastruttura.

Cohere: un ecosistema AI orientato all’impresa

Transcribe si inserisce in una strategia più ampia. Cohere sviluppa modelli di intelligenza artificiale per il mercato enterprise con un approccio focalizzato sull’integrazione nei sistemi aziendali e sul controllo dei dati.

Il portafoglio include modelli generativi della famiglia Command, sistemi di embedding come Embed, che trasformano testi in vettori numerici per facilitarne la ricerca semantica, e modelli di ranking come Rerank, che ordinano i risultati in base alla rilevanza rispetto a una query.

A questi si affiancano strumenti come Compass per la ricerca intelligente di informazioni e Aya Expanse per il supporto multilingua. Model Vault rappresenta l’infrastruttura per l’esecuzione sicura dei modelli, mentre North è la piattaforma per l’orchestrazione di agenti AI, cioè sistemi software in grado di coordinare modelli, dati e strumenti per eseguire compiti complessi all’interno dei workflow aziendali.

Un elemento distintivo è la possibilità di eseguire i modelli in ambienti privati o controllati, mantenendo la governance sui dati, aspetto rilevante nei settori regolamentati.

Verso la speech intelligence

L’evoluzione indicata da Cohere punta all’integrazione di Transcribe con North, trasformando la trascrizione in un componente di sistemi più ampi di speech intelligence. In questa prospettiva, il parlato diventa una fonte di dati strutturati utilizzabile per attivare workflow, alimentare agenti AI e supportare processi decisionali.

La direzione è quella di un’AI enterprise sempre più multimodale, in cui testo e voce vengono trattati in modo unificato all’interno delle piattaforme aziendali, estendendo il perimetro dei dati analizzabili e automatizzabili.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter