Edge computing: l’importanza dell’efficienza dei modelli

8 Febbraio 2022

Edge computing e intelligenza artificiale sono due fra le tecnologie più promettenti e in grande crescita di popolarità. Non solo: sono anche perfettamente complementari, giustificando assieme gli investimenti in sviluppo ed implementazione. Il combinato disposto di edge e intelligenza artificiale apre scenari inediti, il cui potenziale è quasi illimitato e alla base di progetti anche molto complessi di trasformazione digitale. Per approfondire questa interessante tematica, ci siamo confrontati con gli esperti di Reply. Hans-Peter Sailer, Machine Learning Reply spiega come sfruttare

La compressione della profondità delle reti neurali, alla base delle più avanzate intelligenze artificiali, costituisce oggi una tecnologia decisiva per futuri scenari di IoT e pertanto un ambito di ricerca molto attivo. L’obiettivo è quello di implementare modelli di intelligenza artificiale ancora più potenti su dispositivi Edge, riducendo al contempo i requisiti di energia e di calcolo.

Il manager di Reply spiega che le reti neurali vengono progettate e addestrate tramite svariati tipi di framework. Solitamente vi è un’integrazione potente tra TensorFlow e TensorRT, chiamata TF-TRT, che rende questo processo molto conveniente perché capace di ottimizzare automaticamente il modello mediante calibrazione di precisione e quantizzazione, migliorando l’efficacia e la velocità nel tempo di inferenza e facilitando l’implementazione sul dispositivo Edge.

La classificazione delle immagini è certamente una delle attività più comuni nel campo della computer vision. Secondo Reply può essere effettuata su dispositivi Edge dotati di unità di elaborazione grafica e in questo senso TensorRT si presta a essere il migliore strumento per ottimizzare il modello di machine learning.

Quando si tratta di ridurre efficacemente i requisiti di risorse dei modelli di machine learning è possibile identificare due approcci principali: ottimizzazione topologica e quantizzazione dei parametri.

Con il primo, l’obiettivo è ridurre la quantità di calcolo richiesta per l’esecuzione di un modello e il suo memory footprint, ovvero la quantità di memoria principale utilizzata dal programma e può prendere forma attraverso tre differenti tecniche.

La prima è formata da tutti gli approcci che mediante intervento manuale sono in grado di ridurre la complessità del modello richiedendo un elevato grado di competenza per garantire un output accurato. Un perfetto esempio è MobileNets, una classe di reti neurali progettate per risolvere problemi di immagine e che sono concepite appositamente per dispositivi a basse prestazioni.

La seconda tecnica è costituita da quegli approcci che durante il processo di addestramento consentono di effettuare ricerche su spazi predefiniti di possibili topologie di rete, dimostrando in svariate attività di essere perfino in grado di produrre reti più accurate rispetto a quelle create dagli umani. In queste circostanze la complessità della rete diventa infatti un obiettivo da ottimizzare tanto quanto l’accuratezza del modello; pertanto, solitamente si tende a raggiungere un compromesso tra i due attributi. Neural Architecture Search, noto per essere impiegato anche da Google nei suoi prodotti, è un perfetto meta-algoritmo a esempio per questa categoria.

L’ultima tecnica riguarda quegli approcci che applicano una fase di post-elaborazione al fine di ridurre la complessità del modello dopo la fase di addestramento in cui generalmente si forniscono i dati all’algoritmo e si impostano i parametri. Questi processi sono chiamati algortimi di network pruning.

È possibile poi effettuare un ulteriore ottimizzazione “quantizzando” il modello. Le tecniche di quantizzazione nello specifico mirano a ridurre la complessità diminuendo il numero di bit che compongono ciascun parametro e attraverso il tipo di rappresentazione associata a tali bit. La quantizzazione può essere effettuata sia dopo l’addestramento, il che di solito riduce drasticamente l’accuratezza, sia durante l’addestramento, consentendo di compensare l’errore introdotto mediante approssimazione, determinando così un grado di accuratezza simile ai modelli full-size. Gli esempi più noti sono l’algortimo di quantizzazione implementato in TensorFlow che rappresenta un enorme vantaggio per i dispositivi a bassa potenza perché permette di ridurre di 4 volte la dimensione del modello o i Binary Neural Networks che puntano a tagliare significativamente la dimensione di ciascun parametro in un singolo bit. Esistono inoltre le tecniche che convertono i float di 32 bit nella struttura del modello in numeri interi di 8 bit più efficienti. Queste ottimizzazioni, conclude Reply, comportano una perdita prevista di accuratezza del modello inferiore al 5%, garantendo il mantenimento di un’inferenza robusta e precisa.

Leggi tutti i nostri articoli sull’edge computing

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter