Machine learning: come passare dai dati alle informazioni

Molte aziende raccolgono grandi quantità di dati collegati alle loro attività - pensiamo ad esempio a un operatore del retail - e si sentono per questo in una buona posizione per trarre rapidamente vantaggio dalle tecnologie di machine learning.

Raccogliere dati però è solo una condizione necessaria per il machine learning, non è sufficiente. Le cose sono decisamente più articolate.

Qualsiasi azienda, ad esempio, cerca di stimare quanti pezzi di un certo suo prodotto venderà in ciascun punto vendita in un determinato periodo.

Ancora prima di pensare al machine learning farà le sue elaborazioni statistiche, corrette poi con il buon senso e le previsioni "di pancia" degli esperti. Il machine learning deve dare una spinta in più ma per addestrare gli algoritmi e avere risultati più utili certo non bastano le sole serie storiche.

Più variabili del fenomeno-vendita il machine learning può osservare meglio funzionerà il suo algoritmo, almeno sino a un livello di complessità e di carico elaborativo oltre il quale è inutile andare. E il fenomeno che stiamo esaminando e modellando probabilmente è influenzato da variabili che non sono dentro il nostro sistema.

Ad esempio per chi vende abbigliamento è normale correlare le vendite con fattori come le previsioni meteo o i flussi turistici, informazioni che vanno ricavate da fonti esterne attendibili. Senza questi dati, il modello potrebbe non essere mai completamente predittivo.

Quando abbiamo i dati che ci servono nella quantità che ci serve, dobbiamo fare in modo che siano corretti. Anche nel machine learning vale la considerazione che qualsiasi esperto di database conosce: per quanto si cerchi di stare attenti nella raccolta dei dati, questi non saranno mai "puliti".

Chi si occupa di database pensa soprattutto a registrazioni incomplete o con errori, nel machine learning conta anche considerare che i dati non devono essere solo corretti ma anche adatti per un'analisi significativa.

Per questo la pulizia e il filtraggio dei dati prima di darli in pasto al machine learning prende la gran parte del tempo richiesto da tutta l'analisi. I dati inesatti, anomali o inconsistenti vanno eliminati. E anche quelli che sono formalmente corretti vanno a volte trasformati per evitare, come in qualsiasi analisi statistica, che il campione risulti sbilanciato.

Oltre a questo bisogna anche capire se le (molte) variabili scelte per arrivare a un modello del fenomeno sono davvero tutte necessarie e sono quelle giuste.

Serve qui una fase di esplorazione preliminare in cui esaminare la distribuzione delle variabili ed evidenziare eventuali correlazioni fra loro. Evitiamo di addestrare un algoritmo portandolo a esaminare variabili dal comportamento anomalo o gruppi di variabili che sono evidentemente correlate (ne basta una).

L'algoritmo alla prova dei fatti

A un certo punto avremo il nostro algoritmo addestrato in base ai dati che gli abbiamo sottoposto. Se sinora abbiamo usato più semplici metodi statistici per valutare ad esempio la distribuzione delle vendite, quello è il termine di paragone con cui confrontarlo. Il machine learning deve dare risultati predittivi migliori, se non accade è segno che l'addestramento non è andato a buon fine e va ripetuto.

Cosa che peraltro andrà fatta comunque. Andando avanti nel tempo i modelli di machine learning mostrano errori man mano crescenti, un fenomeno naturale perché banalmente le cose cambiano.

I gusti dei clienti variano nel tempo, i concorrenti sfornano nuovi prodotti, tutti i mercati cambiano faccia. I modelli di machine learning vanno quindi addestrati regolarmente su nuovi set di dati, per tenere conto di queste evoluzioni.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here