Rogue Amoeba ha rilasciato la nuova versione 4.3 di Audio Hijack, l’applicazione che consente di registrare l’audio da qualsiasi sorgente su Mac.

Audio Hijack 4.3 arriva con un nuovo strumento molto utile: grazie alla funzionalità di trascrizione Speech to Text, il software per macOS può diventare una sorta di stenografo personale.

Con la nuova funzione Transcribe è infatti ora possibile trasformare in modo rapido e facile l’audio parlato in un testo scritto.

Transcribe si basa sul sistema di riconoscimento vocale automatico Whisper di OpenAI, in grado di trasformare in testo ben 57 lingue. OpenAI è la società specializzata in intelligenza artificiale che ha sviluppato il noto chatbot basato su AI generativa ChatGPT.

Whisper, invece, è un sistema di automatic speech recognition (ASR) addestrato su un vasto dataset, 680.000 ore di dati multilingue e multitask supervisionati raccolti dal web, che consente la trascrizione in più lingue e di cui OpenAI ha “aperto” come open source i modelli e il codice di inferenza.

A differenza di altri servizi di trascrizione, sottolinea Rogue Amoeba, non c’è alcun costo al minuto. Con Audio Hijack e lo strumento Transcribe è possibile generare trascrizioni illimitate, senza alcun costo aggiuntivo e senza preoccupazioni per la privacy. Questo perché – dichiara la software house – tutta la trascrizione avviene localmente sul proprio Mac e i dati audio non vengono mai inviati al cloud, né condivisi con altri.

Rogue Amoeba ha implementato questa nuova funzionalità pensando a una molteplicità di casi d’uso: dagli avvocati ai medici, dai podcaster che desiderano creare trascrizioni per il proprio pubblico ai professionisti e dipendenti che vogliono registrazioni ricercabili delle riunioni tenute tramite Zoom.

Lo strumento Transcribe di Audio Hijack 4.3 è dotato di due potenti modelli per trascrizioni rapide e accurate. Rogue Amoeba sottolinea, a questo proposito, che, per un’esperienza ottimale è vivamente consigliabile utilizzare Mac basati su Apple Silicon. A causa dei requisiti di elaborazione dei modelli di apprendimento automatico, i Mac Intel possono essere molto lenti nella trascrizione. Quindi, Transcribe funziona su qualsiasi Mac che supporti Audio Hijack 4.3, ma per l’azienda è meglio usare i Mac Apple Silicon per questo tipo di task.

Grazie alla capacità di Audio Hijack di catturare l’audio da qualsiasi applicazione in esecuzione su macOS, è ora possibile trascrivere tutto ciò che si sente sul Mac. Ciò è particolarmente utile – suggerisce Rogue Amoeba – per le chiamate vocali e video su Zoom, Skype e altri servizi VoIP.

Con le trascrizioni del parlato in testo, le riunioni su Zoom e le chiamate su FaceTime – ad esempio – possono ora essere consultate e ricercate. E questa opzione naturalmente non è limitata alle sole applicazioni VoIP: è possibile utilizzare Transcribe con qualsiasi applicazione in esecuzione sul Mac, per infinite possibilità di conversione del parlato in testo.

Non è nemmeno necessario che l’audio sia dal vivo. Se si dispone già di un file audio registrato, questo può servire come fonte per la trascrizione. È possibile riprodurre il file audio in qualsiasi applicazione (come l’editor audio Fission della stessa Rogue Amoeba), quindi catturare l’audio con Audio Hijack e passarlo attraverso lo strumento Transcribe per ottenere la trascrizione.

Con Audio Hijack e la nuova funzione Transcribe, è facile ad esempio per i podcaster fornire al pubblico una trascrizione testuale di ogni puntata.

Quando si registra da più input, Transcribe è in grado di gestire anche conduttori e ospiti multipli, e la trascrizione riporta accuratamente l’etichetta di ciascuno speaker. Sarà poi magari necessario rifinire un po’ la trascrizione, ma il testo che viene generato è già una base di partenza molto utile.

La funzione Transcribe di Audio Hijack è al momento classificata come “beta”: non è ancora rifinita come l’azienda desidera e Rogue Amoeba avvisa gli utenti di avere cautela nell’usarla nei sistemi di produzione. Tuttavia, Rogue Amoeba sottolinea anche che lo strumento è stato testato a fondo dal team, secondo cui è già molto utile anche in versione beta.