La qualità dei dati fa il successo del machine learning

27 Aprile 2018

La scarsa qualità dei dati è il nemico numero uno per l’uso diffuso e redditizio dell’apprendimento automatico. Le richieste di qualità del machine learning sono molto elevate e i dati negativi possono far retrocedere l’operatività della soluzione due volte: la prima nei dati storici usati per addestrare il modello predittivo e la seconda nei nuovi dati usati da quel modello per prendere decisioni future.

Per formare correttamente un modello predittivo, i dati storici devono soddisfare standard di qualità eccezionalmente ampi ed elevati. In primo luogo, i dati devono essere corretti, adeguatamente etichettati, dissociati, e così via.

Ma bisogna anche avere i dati giusti – molti dati non distorti, sull’intera gamma di input per i quali si mira a sviluppare il modello predittivo. La maggior parte del lavoro sulla qualità dei dati si concentra su un criterio o sull’altro, ma per l’apprendimento automatico è necessario lavorare su entrambi contemporaneamente.

Tuttavia, oggi la maggior parte dei dati non soddisfa gli standard di base. Le ragioni vanno dai creatori di dati che non capiscono cosa ci si aspetta, agli strumenti di misura scarsamente calibrati, ai processi eccessivamente complessi, all’errore umano.

Per compensare, i data scientist puliscono i dati prima di addestrare il modello predittivo. Si tratta di un lavoro lungo e noioso (che richiede fino all’80% del tempo degli scienziati di dati), ed è il problema di cui gli scienziati di dati si lamentano di più. Anche con tali sforzi, la pulizia non rileva né corregge tutti gli errori e, a tutt’oggi, non c’è modo di capire l’impatto sul modello predittivo. Inoltre, i dati non sempre soddisfano gli standard “dati giusti”, come attestano i rapporti di parzialità nel riconoscimento facciale e nella giustizia penale.

La qualità dei dati non è meno problematica nell’implementazione. Prendete in considerazione un’organizzazione che cerca di aumentare la produttività con il suo programma di machine learning. Mentre il team di informatica che ha sviluppato il modello predittivo può aver fatto un buon lavoro di pulizia dei dati di formazione, può ancora essere compromessa da dati cattivi in futuro.

Anche in questo caso sno necessarie persone per trovare e correggere gli errori. Ciò, a sua volta, sovverte gli auspicati aumenti di produttività. Inoltre, man mano che le tecnologie di machine learning penetrano nelle organizzazioni, i risultati di un modello predittivo alimenteranno il successivo e così via, anche oltrepassando i confini aziendali. Il rischio è che un errore minore in una fase si verifichi a cascata, causando un maggior numero di errori e aumentando sempre di più durante l’intero processo.

Il programma di qualità

Queste preoccupazioni devono essere affrontate con un aggressivo, ben eseguito programma di qualità e alcuni passi successivi.

In primo luogo, chiarite i vostri obiettivi e valutate se avete i dati giusti per supportarli. Consideriamo una società di origine ipotecaria che desidera applicare il machine learning al suo processo di prestito. La Commissione dovrebbe concedere il prestito e, in caso affermativo, a quali condizioni? Tra i possibili obiettivi per l’utilizzo dell’apprendimento automatico vi è la riduzione dei costi del processo decisionale esistente. Eliminare gli errori sistematici dal processo decisionale esistente. Questa distorsione si riflette quasi certamente nei dati esistenti. Procedere con cautela.

In secondo luogo, è necessario dedicare molto tempo all’esecuzione dei fondamentali di qualità dei dati nel piano generale del progetto. Per l’addestramento, questo significa quattro persone-mese di pulizia per ogni persona-mese di costruzione del modello, in quanto è necessario misurare i livelli di qualità, valutare le fonti, de-duplicare, e dati di formazione pulita, così come si farebbe per qualsiasi analisi importante.

Per le implementazioni, è meglio eliminare le cause alla radice dell’errore e quindi ridurre al minimo la pulizia in corso. In questo modo si avrà l’effetto salutare di eliminare le fabbriche di dati nascosti, risparmiando tempo e denaro anche nelle operazioni. Iniziare questo lavoro il più presto possibile e almeno sei mesi prima di lasciare che il modello predittivo si allenti.

In terzo luogo, mantenere una traccia di controllo durante la preparazione dei dati di formazione. Conservare una copia dei dati originali del training, i dati utilizzati durante il training e i passaggi utilizzati per passare dal primo al secondo. Ciò è semplicemente una buona pratica (anche se molti lo saltano involontariamente), e può aiutare ad apportare i miglioramenti di processo per utilizzare il modello predittivo nelle decisioni future. Inoltre, è importante comprendere gli errori sistematici e i limiti del modello e la traccia di controllo può aiutare a risolverli.

In quarto luogo, caricare un individuo specifico (o un team) con la responsabilità per la qualità dei dati. Questa persona dovrebbe possedere una conoscenza approfondita dei dati, compresi i suoi punti di forza e di debolezza. In primo luogo, giorno dopo giorno, vengono stabiliti e applicati standard di qualità per i dati in entrata. Se i dati non sono abbastanza buoni, gli esseri umani devono prendere il sopravvento. In secondo luogo devono guidare gli sforzi per trovare ed eliminare le cause dell’errore.

Infine, ottenere una garanzia di qualità indipendente e rigorosa. In questo caso, la garanzia della qualità è il processo che assicura che il programma di qualità fornisca i risultati desiderati. La parola d’ordine qui è indipendente, quindi questo lavoro deve essere svolto da altri – un reparto interno, un team esterno al reparto, o un terzo qualificato.

Anche dopo aver fatto questi cinque passi si scoprirà comunque che i dati non sono perfetti. È possibile inserire nel modello predittivo alcuni problemi minori relativi alla qualità dei dati, ad esempio un singolo valore mancante tra le quindici variabili più importanti. Per esplorare quest’area, è possibile associare data scientist e imprenditori esperti nella preparazione dei dati e nella formazione del modello.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter

La qualità dei dati fa il successo del machine learning

Il programma di qualità

LASCIA UN COMMENTO Cancella la risposta

Intelligenza artificiale

L’UE mette 10 miliardi sulle AI Gigafactories: fino a sette centri di calcolo, anche...

Qwen3.8-Max ha 2.400 miliardi di parametri e diventerà open weight

Il modello Astra di OpenAI ottiene dieci avanzamenti in matematica e informatica teorica

Trend

AI Gateway: perché le piattaforme AI hanno bisogno di un nuovo livello di controllo

Google DeepMind: il Nobel Demis Hassabis propone un organismo per valutare i modelli AI...

Forward Deployed Engineering, perché le big tech mandano gli ingegneri dentro le aziende