Modernizzare il network edge con machine learning e automazione

3 Aprile 2020

Molte previsioni dicono che le applicazioni business passeranno dai data center alle infrastrutture edge facendo registrare numeri record e aprendo enormi opportunità di mercato.

Per il comparto dell’edge computing, quindi, si prevede una crescita annua composita pari al 36,3% da qui al 2022, alimentata dalla rapida adozione dell’Internet if Things, dei veicoli a guida autonoma, del trading ad alta velocità, dello streaming dei contenuti e dei giochi multiplayer.

Tutte queste applicazioni sono accomunate dall’esigenza di un trasferimento dei dati con latenza pari quasi a zero, solitamente inferiore a cinque millisecondi, sebbene anche questo valore sia ancora fin troppo elevato per molte tecnologie emergenti.

Come ci spiega un esperto di sistemi di rete, Alessandro Salesi, Senior Systems Engineering Manager di Juniper Networks Italia, i fattori specifici che condizionano la necessità di bassa latenza sono variabili. Nelle applicazioni IoT, sensori e altri dispositivi catturano enormi quantità di dati, il cui valore si degrada in millisecondi. I veicoli a guida autonoma necessitano di informazioni in tempo reale per una navigazione efficiente e per evitare collisioni. Il modo migliore per supportare queste applicazioni sensibili alla latenza è spostare le applicazioni stesse e i dati il più vicino possibile al punto di acquisizione, riducendo in questo modo i tempi di trasferimento complessivi.

Oggi, le transazioni finanziarie avvengono con tempi inferiori ai millisecondi, situazione che ha spinto una società di brokeraggio a investire oltre 100 milioni di dollari per rinnovare la propria piattaforma di trading allo scopo di velocizzare ulteriormente le transazioni.

Edge, cosa devono fare i provider

Di pari passo con la diffusione dell’edge computing, aumentano le sfide per i provider di servizi di telecomunicazioni. Una su tutte riguarda il fatto che lo spostamento verso l’edge causa fondamentalmente una disaggregazione del data center tradizionale. Anziché essere composta da un numero consistente di server collocati in pochi data center centralizzati, l’infrastruttura edge dei provider comprende migliaia di piccoli siti, gran parte dei quali con pochi server. Tutti questi siti necessitano di assistenza per garantire il massimo livello di prestazioni, il che mette a dura prova le risorse dei tipici gruppi IT spingendole fino al collasso, e addirittura oltre.

A complicare la situazione interviene un altro fattore: le funzioni di rete si spostano verso applicazioni cloud native, implementate su infrastrutture virtualizzate, condivise ed elastiche, una tendenza in costante accelerazione negli ultimi anni.

In un ambiente virtualizzato, ogni server fisico ospita decine di macchine virtuali e/o container che vengono continuamente creati e distrutti a velocità molto superiori a quelle gestibili dall’uomo.

In condizioni di funzionamento normali, l’ambiente virtuale dinamico viene gestito in automatico dai tool di orchestrazione, ma quando si tratta di ricercare i guasti, il comando passa di nuovo all’uomo.

Il compito non è facile: scarse prestazioni e interruzioni del servizio colpiscono l’attività del provider dei servizi e le organizzazioni si trovano così costrette a esercitare pressioni sullo staff IT affinché risolva i problemi in modo rapido ed efficace.

Le informazioni necessarie per individuare le cause solitamente sono già presenti. Districarsi tra l’immenso volume di dati di telemetria provenienti dai componenti hardware e software è infatti una delle sfide che devono affrontare oggi gli operatori di rete.

Alessandro Salesi, Senior Systems Engineering Manager di Juniper Networks Italia

Machine learning e automazione

Un’infrastruttura ricca di dati, altamente dinamica e dispersa è l’ambiente perfetto per l’intelligenza artificiale e, nello specifico, per il machine learning.

Il grande punto di forza del machine learning è la capacità di trovare pattern significativi in volumi massicci di dati, capacità di gran lunga maggiore di quella degli operatori di rete.

I tool basati sul machine learning possono apprendere autonomamente dall’esperienza, adattarsi a nuove informazioni e svolgere le analisi eseguite dall’uomo a una velocità e una precisione sovrumane.

Per dispiegare l’intero potenziale del machine learning i dati strategici devono essere tradotti in azione: una sfida importante nel mondo dinamico e disaggregato dell’edge computing. Ed è qui, spiega Salesi, che entra in gioco l’automazione.

Sfruttando le informazioni ottenute con il machine learning e il monitoraggio in tempo reale, i tool automatici sono in grado di fornire, istanziare e configurare funzioni di reti fisiche e virtuali in modo sensibilmente più rapido e più preciso di un operatore umano.

La combinazione tra machine learning e automazione riduce notevolmente le ore di lavoro dello staff consentendone il reimpiego in iniziative strategiche che creano ulteriori efficienze operative e velocizzano i cicli di rilascio, contribuendo in definitiva a incrementare la redditività.

Scalabilità delle applicazioni cloud native

Fino a poco tempo fa il processo di sviluppo di un software per un’azienda di telecomunicazioni consisteva in una lunga sequenza di fasi che si spostavano da un reparto all’altro e richiedevano mesi o persino anni per essere completate.

Lo sviluppo cloud-native ha reso largamente obsoleta la cosiddetta metodologia a cascata a favore di un approccio integrato ad alta velocità basato su tecnologie avanzate come i microservizi, i container, lo sviluppo agile l’integrazione continua/il deployment continuo e i processi di DevOps.

I provider dei servizi di telecomunicazioni sono così in grado di implementare servizi a velocità finora mai viste, spesso con più di una release a settimana.

Lo spostamento verso l’edge pone delle sfide per la scalabilità delle applicazioni cloud-native. Quando l’ambiente è composto da pochi data center centralizzati, gli operatori umani possono impostare manualmente la configurazione ottimale necessaria per garantire le prestazioni adeguate per le funzioni di reti virtuali o VNF che formano l’applicazione.

Tuttavia, con la disaggregazione dell’ambiente in migliaia di piccoli siti, ciascuno con caratteristiche operative leggermente diverse, si rende necessario il machine learning.

Gli algoritmi di apprendimento non supervisionati possono eseguire tutti i componenti individuali in un ciclo di pre-produzione per valutarne il comportamento in un sito produttivo.

Lo staff operativo può sfruttare questo approccio per acquisire un elevato livello di sicurezza circa il fatto che le VNF testate saranno disponibili nello stato desiderato sull’edge.

Troubleshooting veloce

L’intelligenza artificiale e l’automazione possono inoltre aggiungere un valore significativo al troubleshooting negli ambienti cloud-native.

Salesi ci fa l’esempio di un provider di servizi che esegue dieci istanze di un’applicazione di elaborazione delle chiamate voce come applicazione cloud-native in una posizione edge. Un operatore remoto si accorge che le prestazioni di una VNF sono nettamente inferiori a quelle delle altre nove funzioni.

La prima domanda da porsi è: “Abbiamo davvero un problema?” Alcune variazioni di prestazioni tra le istanze delle applicazioni non sono insolite, quindi per rispondere alla domanda occorre stabilire l’intervallo tipico dei valori delle performance della VNF in servizio.

Un operatore umano potrebbe esaminare le letture di un vasto numero di istanze di una VNF in un determinato periodo di tempo e quindi calcolare gli indicatori chiave di prestazioni accettabili: un processo dispendioso in termini di tempo e soggetto a errori, che deve essere ripetuto di frequente per tenere conto degli aggiornamenti software, della sostituzione dei componenti, delle variazioni dei pattern di traffico e di altri parametri che incidono sulle prestazioni.

Al contrario, l’intelligenza artificiale è in grado di stabilire i KPI in una frazione del tempo e regolare i valori KPI secondo necessità, quando cambiano i parametri, senza interventi esterni. Una volta che l’intelligenza artificiale ha determinato i valori KPI l’automazione ha inizio. Un tool automatizzato può monitorare costantemente le prestazioni, confrontare il valore effettivo rispetto ai KPI stabiliti dall’intelligenza artificiale e individuare VNF con prestazioni sotto la media.

Queste informazioni possono poi essere trasferite all’orchestratore che avvia un intervento riparatorio, come lo spin up di una nuova VNF o lo spostamento della VNF verso un nuovo server fisico. La combinazione tra intelligenza artificiale e automazione aiuta a garantire la conformità con gli SLA ed elimina la necessità di interventi da parte dell’uomo: un cambiamento particolarmente apprezzato dagli operatori esausti a causa delle sessioni di troubleshooting notturne.

Gestire l’edge

Mano a mano che i provider di servizi velocizzano l’adozione delle architetture orientate all’edge, i gruppi IT devono trovare nuove modalità per ottimizzare le operazioni di rete, risolvere i problemi delle VNF con prestazioni insoddisfacenti e assicurare la conformità agli SLA su vasta scala: qui entrano in gioco le tecnologie dell’intelligenza artificiale come il machine learning, abbinate all’automazione.

In particolare, sono stati compiuti diversi progressi negli ultimi anni per far sì che il futuro comandato dall’intelligenza artificiale diventi realtà. Tra questi rientrano i sistemi e i dispositivi per fornire dati di telemetria altamente affidabili e ad alta frequenza che possono essere analizzati, bus di messaggi altamente scalabili come Kafka e Redis in grado di catturare ed elaborare questi dati, capacità informatiche e framework di intelligenza artificiale come TensorFlow e PyTorch per creare modelli dai flussi di dati grezzi di telemetria.

Presi tutti assieme, questi sistemi possono stabilire in tempo reale se le operazioni dei sistemi di produzione sono conformi agli standard e individuare eventuali problemi in caso di interruzioni dell’attività.

È qui che risiede tutto il potenziale per snellire le operazioni e fornire ai provider di servizi un vantaggio competitivo nel settore dell’edge computing.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter