“Think big, start small”, approccio Cloudera ai big data

19 Ottobre 2016

“Un progetto big data non è un progetto chiavi in mano: per realizzarlo con successo occorre scegliere come partner chi ha gli skill, le conoscenze e la capacità di portarlo al successo concentrandosi su pochi casi d’uso”.
Non usa i giri di parole Michele Guglielmo, da nove mesi Regional Sales Director di Cloudera, piattaforma per la gestione unificata dei dati aziendali basata su Apache Hadoop, che a un anno dall’apertura della filiale italiana è tornata a ospitare a Milano Cloudera Sessions, un momento di incontro per condividere l’esperienza dei clienti Cloudera.
Per loro Amy O’Connor, Big Data Evangelist di Cloudera, ha elencato uno a uno i benefici della piattaforma open source Apache Hadoop, attualmente impegnata anche nello sviluppo di Apache Kudu 1.0, sottolineando l’importanza di lavorare per comprendere nella sua totalità la vision dei clienti al fine di generare nuove opportunità di business, per migliorare il ciclo di produzione di nuovi servizi in un mondo dove IoT, smart cities, realtà aumentata, medicina di precisione e molto altro ancora, stanno spingendo affinché fisico e digitale convergano.
Ma per non rientrare in quel 60% di progetti big data destinati, secondo Gartner, a fallire nel 2017 appena al di là della fase pilota, occorre lavorare per costruire una vera e propria cultura dei big data a opera dell’esecutivo, chiamato a comunicare e a sostenere il cambiamento in tutta l’azienda. Va poi assemblato un team di esperti e innovatori in grado di creare un ponte tra la parte Dev e la parte Ops al fine di governare al meglio i dati.
Il che, riassunto, suona come: “Think big. Start small. Iterate to success”.

Mostrano di averlo capito alcune eccellenze italiane, tra cui Jobrapido, motore di ricerca verticale sul lavoro dotato di mobile app, che ha iniziato a utilizzare le tecnologie di Cloudera fin dal 2011 per modificare i propri sistemi di data warehousing e Business intelligence.
«Nello specifico, negli ultimi 14 mesi – come spiegato da Michele Pinto, Big Data Technical Team Leader, Jobrapido –, con l’obiettivo di profilare la nostra community disambiguando il comportamento dell’utente per indirizzare al meglio le nostre campagne di marketing e offrire una user experience di eccellenza, abbiamo iniziato un viaggio per modificare la nostra architettura dati sfoltendo, a livello di Etl, legacy e tecnologie non scalabili implementate in passato».
Accelerato dall’acquisizione, avvenuta nel 2014, da parte del fondo di private equity californiano Symphony Technology Group, il viaggio verso una soluzione scalabile iniziato da Jobrapido è «partito da un foglio bianco sul quale – ha puntualizzato Pinto – abbiamo individuato come vincoli imprescindibili la riduzione della complessità dell’architettura esistente e il drastico abbattimento dei costi di manutenzione. Da qui la generazione, tramite Apache Kafka e Avro, di una nuova Tracking Platform per creare un unico layer scalabile e in grado di tracciare punte di 10mila eventi al secondo ulteriormente incrementabili senza intaccare l’infrastruttura server e hardware attorno».
Tra le macro componenti infrastrutturali identificate da Jobrapido per attuare la sua big data revolution, anche la creazione di un approccio Data Lake per esplorare, sempre grazie a Kafka e HPE Vertica, i dati in chiave di analytics, demandando a Impala l’interrogazione del dato «con performance notevolmente maggiori».
Implementato circa un anno fa, il servizio Flume, anch’esso erogato da Cloudera, consente, ora, a Jobrapido di collezionare e migrare moli di dati tra tecnologie differenti «mentre Kafka facilita la missione di disaccoppiare il Data Lake dal data warehouse e la sua integrazione con Vertica semplifica sviluppo e architettura».

La gestione del dato nel mondo Ubis di UniCredit

Per chi, come UniCredit Business Integrated Solutions di UniCredit “non si è ancora approcciata al mondo cloud per problemi di compliance” ma ha cominciato ad affrontare una progettualità in ambito big data dal 2014, la leva all’investimento è la riduzione dei costi.
«La maggior parte dei nostri investimenti – ha spiegato Fabio Oberto Tarena, Big Data Program Manager – è dedicata all’area Marketing, Analytics & Crm per il mondo corporate, ma non manca l’interesse per il tema della Data monetization, che trasforma le informazioni in un valore anche economico».
Da qui una serie di sperimentazioni in tema di data analytics portate avanti da un team passato, in soli due anni, da quattro a novanta persone, di cui otto data scientist, suddivise tra sviluppo applicativo, esperti di Bi, gestione infrastrutturale e gestione del dato.
Tra i progetti d’interesse citati da Oberto Tarena, anche l’accesso all’anagrafica tramite Web Services direttamente da Apache Hbase, «al fine di ovviare le chiamate e i relativi costi a consumo verso il mondo mainframe», e My Business View, prodotto lanciato lo scorso e indirizzato ai clienti piccoli, medi e ora anche corporate e al canale ecommerce, a cui UniCredit fornisce un Pos. «Oltre alla possibilità di visualizzare le transazioni effettuate nel proprio esercizio, oggi My Business View offre già a oltre 20 mila clienti il monitoring di Kpi significativi per analizzare il proprio business in termini di pagamenti digitali comparabili anche con esercenti competitor in una zona limitrofa o che operano in una modalità analoga».
Infine, per sei Paesi dell’Est Europa, Ubis sta finalizzando una soluzione di Value retention basata su algoritmo di machine learning per identificare chi sono i clienti che scelgono di abbandonare la banca. «Su questa soluzione costruita su un modello industriale ha lavorato in modo massiccio il già citato team di data scientist per ripulire il dato, aggregarlo, capire quali sono le variabili di interesse a cui aggiungere quelle calcolate per ottenere un risultato ottimale dall’algoritmo utilizzato».

Docomo Digital fa Data Lake su Hadoop

Decisa a realizzare un ambiente multi-tenant, Docomo Digital, realtà nata nel 2012 per riunire sotto un unico cappello le società acquisite da Docomo nell’ambito della gestione dei dati di pagamento, ha scelto Cloudera, «l’unica tra le distribuzioni Hadoop PCI compliance», per realizzare un Data Lake dal quale ottenere pieno vantaggio, anche economico, prestando particolare attenzione allo sviluppo delle applicazioni nell’ambiente in cui la security è configurata.
«Senza tener conto di questo aspetto – come sottolineato da Carmine Roberto Maurizio Giordano, Manager of DBA Department, Buongiorno – il rischio è di dover modificare in un momento successivo e a caro prezzo le proprie applicazioni».
Operativamente, suddivisa la security in una parte di autenticazione dell’utente e in una di assegnazione dei privilegi per gruppi di utenti con la soluzione Sentry, Docomo Digital ha ovviato il problema della condivisione delle risorse per ogni team di sviluppo dedicando pool e sotto pool di risorse Hadoop ai diversi gruppi di lavoro, «che possono di volta in volta e in maniera autonoma spostare il peso dell’utilizzo delle risorse».
Tra le implementazioni in corso di Docomo Digital, anche un progetto di machine learning e di analytics per fornire gli strumenti al business sull’andamento delle campagne.