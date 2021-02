Satin è il nome dell’ultimo codec audio potenziato dall’intelligenza artificiale di Microsoft, progettato per offrire un’esperienza nelle chiamate di Teams e Skype della stessa qualità come se si parlasse di persona, anche con una larghezza di banda limitata e in condizioni di rete altamente congestionate.

Il codec, ha sottolineato Microsoft, può fornire una qualità super wideband per il parlato a partire da un bitrate di 6 kbps e musica stereo in full-band a partire da un bitrate di 17 kbps, con una qualità progressivamente più alta a bitrate più elevati.

Satin, ha spiegato ancora Microsoft, è stato sviluppato in modo da fornire una buona qualità audio anche in caso di elevata perdita di pacchetti. Inoltre, la sua qualità a basso bitrate permette di utilizzare più della larghezza di banda disponibile per fornire una migliore resilienza alla perdita di pacchetti, grazie anche agli algoritmi di ridondanza migliorati.

Per ottenere una qualità super wideband a 6 kbps, Satin utilizza una profonda comprensione della produzione del discorso, della modellazione e della psicoacustica per estrarre e codificare una rappresentazione del segnale. Per ridurre ulteriormente il bitrate richiesto, Satin inoltre codifica e trasmette solo alcuni parametri nelle bande di frequenza più basse. Sul lato decoder, Satin utilizza poi reti neurali profonde per stimare i parametri della banda alta da quelli ricevuti della banda bassa, e una quantità minima di informazioni collaterali trasmesse.

Tuttavia, ha illustrato Microsoft, se da un lato questo approccio ha risolto la sfida primaria di riprodurre la voce a banda super larga a bitrate estremamente bassi, dall’altro ha introdotto la nuova sfida della complessità computazionale.

L’analisi del segnale vocale in ingresso per estrarre una rappresentazione dimensionalmente bassa è molto intensa dal punto di vista del computing. L’inferenza in tempo reale sulle reti neurali profonde aggiunge ancora più complessità. Per risolvere questo problema, il team di sviluppo si è focalizzato sia sulle ottimizzazioni algoritmiche che su tecniche come il loop vectorization, per spingere oltre ciò che il compilatore poteva raggiungere.

Queste ottimizzazione hanno fatto ottenere quasi il 40% di riduzione della complessità computazionale e ha permesso al codec di funzionare su tutti i dispositivi.

Satin è già utilizzato per tutte le chiamate a due di Teams e Skype e sarà presto disponibile per i meeting di Teams, ha annunciato Microsoft. Attualmente funziona in modalità voce a banda larga in un intervallo di bitrate di 6 – 36 kbps e sarà esteso per supportare la musica stereo a banda intera a una frequenza massima di campionamento di 48 kHz nel prossimo futuro.

Sul proprio blog Tech Community Microsoft ha condiviso interessanti informazioni tecniche su Satin nonché sample del nuovo codec confrontati con sample di Silk, il precedente codec audio di default di Skype e Teams.