Data lake, il grande tesoro della logistica di Amazon

28 Febbraio 2020

La macchina commerciale di Amazon funziona con più di 175 centri logistici in tutto il mondo in cui sono impiegate 250.000 persone a tempo pieno che spediscono milioni di articoli al giorno: una rete logistica che traccia i dati relativi a ordini, consegne e pagameti con un data lake.

Un data lake è un repository sicuro e centralizzato che permette di memorizzare, governare, conoscere e condividere tutti i dati strutturati e non strutturati su qualsiasi scala.

I data lake non richiedono uno schema predefinito, quindi è possibile elaborare i dati grezzi senza dover sapere quali intuizioni si vuole esplorare in futuro.

Con il Galaxy data lake, questo il nome dato alla struttura, Amazon ha affrontato silos di dati, difficoltà nell’analisi di diversi set di dati, controllo dei dati, sicurezza dei dati e incorporazione del machine learning.

L’attività di vendita al dettaglio di Amazon, iniziata con i libri nel 1995, utilizza alcune tecnologie precedenti alla creazione di Amazon Web Services, apparsi nel 2006.

Quindi per diventare più scalabili, efficienti, performanti e sicuri, molti carichi di lavoro retail di Amazon sono passati ad AwsS nel corso degli anni.

Dal data lake manuale a quello automatizzato

Amazon ha creato da zero l’architettura del Galaxy data lake, che similmente a quanto accade in tutte le aziende, ha richiesto lo sviluppo manuale di molti dei componenti nel corso di mesi.

Ma ad agosto 2019 Aws ha rilasciato un servizio chiamato Aws Lake Formation che consente di snellire il processo di creazione di un data lake e di costruirne uno sicuro in giorni invece che in mesi.

Il Galaxy data lake, che è una componente della più grande piattaforma interna Galaxy, è costruito su Amazon Simple Storage Service (Amazon S3), il servizio di archiviazione a oggetti. A bordo dei vari set di dati di Amazon S3 vengono utilizzati Aws Glue, un servizio ETL completamente gestito che facilita la preparazione e il caricamento dei dati per l’analisi, e Aws Database Migration Service.

Galaxy combina le risorse di metadati di più servizi in un livello di catalogo unificato costruito sul database di documenti e valori chiave, Amazon DynamoDB, Amazon Elasticsearch Service, invece, è utilizzato per consentire una ricerca più veloce delle query sul catalogo.

Via i data silos

Uno dei motivi principali per cui le aziende creano un data lake è di eliminare i silos di dati (sacche di dati in luoghi diversi, controllati da gruppi diversi). I silos prendono vita quando un’azienda cresce rapidamente o acquisisce nuovi business.

Per espandersi a livello internazionale e creare rapidamente nuovi programmi di spedizione (ad esempio, Free Same-Day Delivery o Amazon Fresh), la maggior parte dei team di pianificazione delle operazioni ha avuto il controllo dei propri dati e della propria tecnologia. Di conseguenza i dati sono stati memorizzati in luoghi e in modi diversi. Questo approccio ha consentito a ciascun team di affrontare i problemi, rispondere alle esigenze e innovare.

Può essere difficile dare un senso ai dati a livello organizzativo e aziendale con una raccolta manuale dei dati da molte fonti diverse: con tanti team che operano in modo indipendente si perde efficienza.

Un data lake risolve questo problema unendo tutti i dati in un’unica posizione centrale.

Analisi di vari set di dati

In Amazon le strutture dei dati e le informazioni variano. Amazon Prime dispone di dati per i centri logistici e le merci confezionate, mentre Amazon Fresh dispone di dati per i negozi di alimentari e dei diversi generi alimentari. Anche i programmi di spedizione differiscono a livello internazionale, con le scatole che possono variare di dimensioni e forma da paese a paese. E c’è anche una quantità crescente di dati non strutturati provenienti da dispositivi IoT come i sensori sulle macchine dei centri logistici.

Se si volesse combinare tutti questi dati in un data warehouse tradizionale senza un data lake, sarebbe necessario un enorme lavoro di preparazione dei dati e di esportazione, trasformazione e caricamento (ETL).

I data lake invece permettono di importare qualsiasi quantità di dati in qualsiasi formato, anche in tempo reale, perché non esiste uno schema predefinito. È possibile raccogliere dati da più fonti e spostarli nel data lake nel loro formato originale e creare collegamenti tra informazioni che potrebbero essere etichettate in modo diverso ma che rappresentano la stessa cosa.

Lo spostamento di tutti i dati in un data lake migliora anche ciò che si può fare con un data warehouse tradizionale avendo la flessibilità di memorizzare dati altamente strutturati e a cui si accede frequentemente in un data warehouse e allo stesso tempo mantenendo fino a exabyte di dati strutturati, semi-strutturati e non strutturati all’interno del data lake.

Data lake con accesso ai dati gestito

Molti database richiedono il supporto della gestione degli accessi per cambiare i profili o reimpostare le password. Inoltre, per ogni database devono essere effettuati audit e controlli per garantire che nessuno abbia un accesso improprio.

Con un data lake, invece di gestire l’accesso per tutti i diversi luoghi in cui sono memorizzati i dati, ci si occupa solamente di una serie di credenziali: i data lake abilitano controlli che consentono agli utenti autorizzati di vedere, accedere, elaborare e/o modificare specifici asset e aiutano a garantire che gli utenti non autorizzati non possano intraprendere azioni che possano compromettere la riservatezza e la sicurezza dei dati. I dati sono memorizzati in un formato aperto che rende più facile lavorare con diversi servizi analitici.

Machine learning e previsioni

Un data lake è un motore per intelligenza artificiale e machine learning, che utilizza algoritmi statistici che imparano dai dati esistenti per prendere inferenzialmente decisioni su nuovi dati.

Durante il training vengono identificati modelli e relazioni nei dati per costruire un modello che permetterà di prendere decisioni intelligenti basate su dati mai incontrati prima.

Più dati si ha a disposizione migliore sarà l’addestramento dei modelli di machine learning, con miglioramento della precisione.

Amazon Operations Finance pianifica e la prevede costi operativi e spese in conto capitale per la catena di fornitura di Amazon. Serve precisione: la previsione è troppo bassa o troppo alta, può avere conseguenze negative che si ripercuotono sui clienti e sui profitti. Ad esempio se si prevede una domanda troppo bassa gli addetti al magazzino di un centro di distribuzione potrebbero non avere abbastanza rifornimenti o potrebbero non esserci abbastanza autisti, il che potrebbe portare a ritardi nella consegna dei pacchi, a un maggior numero di chiamate al servizio clienti, all’annullamento degli ordini e alla perdita di fiducia da parte dei clienti. Se si prevede una domanda troppo alta, si potrebbe avere un inventario e scatole che occupano spazio in magazzino togliendone ai prodotti più richiesti.

L’anno scorso, il team finanziario Amazon Operations Finance ha testato l’accuratezza delle previsioni di Amazon Forecast, servizio che utilizza il machine learnign per fornire previsioni accurate, rispetto a quelle fatte tramite processo tradizionale. In questa prova, le previsioni completate da Forecast sono state in media il 67% più accurate delle previsioni completate con il processo manuale.

Spostando tutti i dati in un data lake, il team di Operations Finance di Amazon può combinare i set di dati per addestrare e implementare modelli più precisi aumentando così l’accuratezza delle previsioni. Inoltre, questo processo libera i dipendenti che svolgevano questo compito manualmente per lavorare su progetti più strategici, come l’analisi delle previsioni per guidare i miglioramenti delle operazioni sul campo.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter