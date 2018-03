Il software open source continua ad affermarsi: i responsabili IT di aziende di qualsiasi dimensione oggi prevedono e pianificano come implementare il software open source all’interno dell’infrastruttura della propria azienda.

Una storia che ha avuto inizio 20 anni fa, quando è stato pubblicato ilprimo framework Open Source, rendendo disponibile quella che sarebbe stata la tendenza più significativa nello sviluppo del software da quel momento in poi.

L'OSI, Open Source Initiative, un'organizzazione senza scopo di lucro che sostiene lo sviluppo open source e il software non proprietario, porta infatti la data di inizio del 3 febbraio 1998.

Secondo Ovum, l'open source è già l'opzione predefinita in diversi ambiti che afferiscono big data, che vanno dallo storage aall'analisi, dalle applicazioni al machine learning.

Da una ricerca condotta da Black Duck Software e North Bridge, emerge che il 90% degli intervistati ha dichiarato di affidarsi all'open source "per una maggiore efficienza, innovazione e interoperabilità", ma per lo più anche per "la libertà di non doversi legare a un fornitore; per caratteristiche competitive e funzionalità tecniche; per la possibilità di personalizzazione e la qualità in generale”.

Oggi ci sono molto progetti open source di successo che le aziende possono necessariamente scegliere in modo strategico per rimanere competitive.

"Quando abbiamo lanciato il primo sondaggio dieci anni fa, quasi nessuno avrebbe previsto che l'uso dell’open source sarebbe stato così diffuso in tutto il mondo solo un decennio dopo, ma per molte buone ragioni, è proprio quello che è successo. Il suo valore nel ridurre i costi di sviluppo, nel liberare gli sviluppatori interni per dedicarsi ad attività più strategiche e nell'accelerare il time-to-market è innegabile. In poche parole, l'open source è il modo in cui le applicazioni vengono sviluppate oggi", ha affermato Lou Shipley, Ceo di Black Duck. "Il futuro dell'open source è pieno di possibilità”.

Tra le centinaia di progetti open source attualmente in corso e più diffuse, estrapoliamo sette iniziative che meritano attenzione particolare in relazione al trattamento dei big data, in favore della business agility.

Sono progetti open source big data che consentono alle aziende di raggiungere un'estrema agilità e rispondere con estrema rapidità alle esigenze dei clienti, alle esigenze interne all’azienda e alle sfide del mercato.

Apache Airflow è ideale per la pianificazione automatizzata e intelligente delle pipeline di Beam (vedi sotto) per ottimizzare i processi e organizzare i progetti. Tra le funzionalità e caratteristiche più interessanti, le pipeline vengono configurate tramite il codice che le rende dinamiche e le metriche hanno una grafica per le istanze DAG e Task. Se e quando si verifica un errore, Airflow ha la possibilità di rieseguire un'istanza DAG.

Apache Beam è un modello di progetto che ha preso il nome dalla combinazione dei termini per i processi di big data batch e streaming perché è un modello singolo per entrambi i casi: Beam = Batch + strEAM. Con il modello Beam, è necessario progettare una pipeline di dati una sola volta e scegliere tra più strutture di elaborazione successive. La pipeline di dati è portabile e flessibile in modo che si possa scegliere se renderlo batch o stream. Non è necessario riprogettarlo ogni volta che si desidera scegliere un diverso engine di elaborazione o quando è necessario elaborare i dati batch o streaming. In questo modo, il team di lavoro può beneficiare di una maggiore agilità e flessibilità per riutilizzare le pipeline di dati e scegliere il giusto engine di elaborazione per più casi d'uso.

Apache Carbon Data è un formato di dati a colonne indicizzato per analisi veloci su piattaforme big data come Hadoop e Spark. Questo nuovo tipo di formato di file risolve il problema di analizzare le query per diversi casi d'uso. Esistono molti tipi di esigenze di query: OLAP rispetto a query dettagliate, scansioni di grandi e piccole dimensioni, ecc. Con Apache Carbon, il formato dei dati è unificato in modo da poter accedere a una singola copia di dati e utilizzare solo la potenza di elaborazione necessaria, rendendo così le query molto più veloci.

Apache Cassandra è un database multi-master scalabile e agile che consente di sostituire i nodi senza dover effettuare lo shut down e abilita la replica automatica dei dati su più nodi. È un database NoSQL con elevata disponibilità e scalabilità. Si differenzia dal tradizionale RDBMS e da altri database NoSQL, in quanto è progettato senza una struttura master-slave, tutti i nodi sono peer e fault tolerant. Ciò semplifica enormemente la scalabilità per una maggiore potenza di calcolo senza tempi di fermo delle applicazioni. Ad esempio, le applicazioni transazionali possono entrare in produzione su vasta scala, con volumi e velocità tipici delle vendite del Black Friday, senza la preoccupazione di andare offline in qualsiasi momento perché un qualunque singolo nodo è inattivo.

Apache Spark è uno dei progetti Apache più utilizzati e molto diffusi per l'elaborazione di big data veloce (cluster computing) con funzionalità integrate per lo streaming di dati in tempo reale, SQL, machine learning ed elaborazione grafica. Spark è ottimizzato per l'esecuzione in memoria e consente analisi di streaming interattive dove, a differenza dell'elaborazione in batch, è possibile analizzare una grande quantità di dati storici con dati in tempo reale per prendere decisioni in tempo reale, come il rilevamento di frodi, analisi predittiva, analisi del sentiment e migliore offerta successiva.

TensorFlow è una library open source estremamente diffusa per il machine intelligence che consente analisi molto più avanzate su vasta scala. TensorFlow è progettato per la formazione e l'inferenza su larga scala, ma è anche flessibile in modo da supportare la sperimentazione con nuovi modelli di machine learning e ottimizzazioni a livello di sistema. TensorFlow è soluzione più apprezzata! Prima di TensorFlow non esisteva una library che fosse in grado di catturare l'ampiezza e la profondità del machine learning e possedesse tali potenzialità. È facile da decifrare, ben documentato e dovrebbe continuare a crescere all’interno di una comunità più vivace.

Docker e Kubernetes sono tecnologie contenitore per la gestione automatizzata che velocizzano le distribuzioni di applicazioni. L’utilizzo di tecnologie come i contenitori rende l’architettura aziendale estremamente flessibile e più portabile. Il processo DevOps trarrà beneficio da una maggiore efficienza nella distribuzione in continuo.

Tutti questi progetti open source sono già di per sé notevoli, ma sono i progressi collettivi che meglio illustrano l'enorme impatto che la community open source ha avuto sul mondo aziendale oltre all’enorme cambiamento rappresentato dal passaggio da software legacy e proprietario a sistemi basati su open source, che hanno permesso alle aziende di ogni dimensione, in tutti i settori, di incrementare velocità, agilità e insight data-driven a tutti i livelli.

Come le aziende possono far parte del movimento

Ci sono diversi modi per aiutare le aziende ad avvantaggiarsi di questa trasformazione e ad adattarsi alle innovazioni derivanti dalla combinazione tra open source, cloud e big data, che ancora devono arrivare.

Chiunque può contribuire ai progetti open source. "Oggi ci sono molte aziende che utilizzano l'open source, ma sfortunatamente molte di loro non contribuiscono attivamente", afferma Jean-Baptiste Onofré, Technical Fellow e Software Architect del team Apache di Talend.

(Onofré è stato anche un mentor per il modello di incubazione di Apache Beam che ha contribuito con la maggior parte dei connettori ed è ora membro del Project Management Committee (PMC) per Beam). "Contribuendo a monte al progetto altri possono trarre vantaggio dal vostro lavoro, ma la cosa è reciproca perché la vostra azienda beneficerà anche del lavoro degli altri. Questo significa un maggior numero di nuove funzionalità e più problemi potenzialmente risolti”.

Il mondo dei big data è governato dall'open source

Partecipando alla comunità open source, le aziende aumentano la propria autorevolezza all’interno della community open source su progetti importanti anche l’evoluzione della propria azienda ne trae un vantaggio. Essere influenti significa poter indirizzare le modifiche al progetto che saranno di particolare beneficio per i progetti della propria azienda.

Per arrivare sul nostro mercato, il collega di Onofrè, Antongiulio Donà, Vice President Sales Italia di Talend, sottolinea come «Big Data, Machine Learning e applicazioni IoT consentono alle aziende di diventare realmente data driven. Lo sviluppo di piattaforme dati non relazionali, la velocità di fruizione dei dati , la disponibilità dell’utilizzo, liberato dai vincoli tradizionali, sono gli elementi caratterizzanti di questo momento storico e del prossimo futuro. L’aderenza ai nuovi e open standard di sviluppo e di mercato è determinante per assicurare alle aziende la Data Agility, nostro conio, maggiore velocità sui mercati e libertà nelle scelte. Il mondo dei big data è governato dall’open source».