01net

Big data, cosa sono e come possono essere utilizzati

Ci sono i dati e ci sono i big data. Qual è la differenza?

I big data in generale si riferiscono a insiemi di dati così grandi in volume e così complessi che i prodotti software di elaborazione dati tradizionali non sono in grado di acquisire, gestire ed elaborare i dati entro un lasso di tempo ragionevole.

Questi grandi set di dati possono includere dati strutturati, non strutturati e semistrutturati, ognuno dei quali può essere estratto per approfondimenti. I dati che costituiscono grandi archivi possono provenire da fonti che includono siti web, social media, applicazioni desktop e mobili, esperimenti scientifici, e sempre più spesso sensori e altri dispositivi nell’Internet degli oggetti (IoT).

Il concetto di dati di grandi dimensioni viene fornito con una serie di componenti correlati che consentono alle organizzazioni di utilizzare i dati in modo pratico e risolvere una serie di problemi aziendali.

Caso d’uso: analisi dei clienti

Le aziende possono esaminare i big data dei clienti per migliorarne l’esperienza e i tassi di conversione e aumentare.

Questi includono l’infrastruttura It necessaria per supportare i dati di grandi dimensioni, l’analisi applicata, le tecnologie necessarie per i grandi progetti, insiemi di competenze correlate, e i casi d’uso reale.

Per i big data l’analisi è fondamentale

Ciò che realmente fornisce valore è l’analisi applicata ai dati. Senza analisi analitiche, si tratta solo di un gruppo di dati con un uso aziendale limitato. Applicando l’analisi analitica ai grandi dati, le aziende possono vedere vantaggi come l’aumento delle vendite, il miglioramento del servizio clienti, maggiore efficienza e un generale aumento della competitività.

In pratica, analizzando i dati, le organizzazioni possono prendere decisioni aziendali più informate, come quando e dove eseguire una campagna di marketing o introdurre un nuovo prodotto o servizio. L’analisi può riferirsi ad applicazioni di business intelligence di base o ad analisi più avanzate e predittive, come quelle utilizzate dalle organizzazioni scientifiche. Tra le tipologie più avanzate di analisi dei dati c’è l’estrazione dove gli analisti valutano grandi insiemi di dati per identificare le relazioni.

L’infrastruttura necessaria

Affinché il concetto di dati di grandi dimensioni possa funzionare, le organizzazioni devono disporre dell’infrastruttura necessaria per raccogliere e alloggiare i dati, fornire loro l’accesso e proteggere le informazioni durante la memorizzazione e il transito.

Caso d’uso: analisi operativa analitica

Il miglioramento delle prestazioni operative e un migliore utilizzo degli asset aziendali sono gli obiettivi di molte aziende. Le analisi dei big data possono aiutare le aziende a trovare modi per operare in modo più efficiente e migliorare le prestazioni.

Ad alto livello, questi includono sistemi di storage e server progettati per grandi dati, software per la gestione e l’integrazione, business intelligence e software per l’analisi. Gran parte di questa infrastruttura sarà probabilmente disponibile in locale, in quanto le imprese cercano di continuare a sfruttare i loro investimenti nei data center. Ma sempre più spesso le organizzazioni si affidano ai servizi di cloud computing.

La raccolta richiede l’esistenza di fonti per la raccolta dei dati. Molti di questi, come ad esempio le applicazioni web, i canali dei social media, le app mobili e gli archivi di posta elettronica, sono già operativi. Ma man mano che l’Internet degli oggetti si consolida, le aziende potrebbero avere bisogno di installare sensori su tutti i tipi di dispositivi, veicoli e prodotti per raccogliere dati, nonché su nuove applicazioni che generano dati utente. Per memorizzare tutti i dati in arrivo, le organizzazioni devono disporre di un’adeguata capacità di storage.

Le tecnologie Big data

Oltre all’infrastruttura informatica utilizzata per i dati in generale. Esistono diverse tecnologie specifiche per i grandi dati che l’ infrastruttura It deve supportare.

Caso d’uso: prevenzione delle frodi

L’analisi dei big data può aiutare le organizzazioni a identificare attività e modelli sospetti che potrebbero indicare comportamenti fraudolenti e contribuire a mitigare i rischi.

Ecosistema Hadoop. Hadoop è una delle tecnologie più strettamente associate ai grandi dati. Il progetto Apache Hadoop sviluppa software open source per il calcolo scalabile e distribuito. La libreria software Hadoop è un framework che consente l’elaborazione distribuita di grandi set di dati su cluster di computer utilizzando semplici modelli di programmazione. E’ progettato per scalare da un singolo server a migliaia, ognuno dei quali offre calcolo e storage locali.
Il progetto comprende diversi moduli:

Hadoop Common, le utilità comuni che supportano altri moduli Hadoop.
Hadoop Distributed File System, che fornisce l’accesso ad alta throughput ai dati delle applicazioni.
Hadoop Yarn, un framework per la pianificazione del lavoro e la gestione delle risorse cluster.
Hadoop MapReduce, un sistema basato su Yarn per l’elaborazione in parallelo di grandi set di dati.

Apache Spark è un framework di cluster computing open source che funge da motore per l’elaborazione di grandi dati all’interno di Hadoop. Spark è diventato uno dei più importanti framework di elaborazione distribuita dei dati e può essere implementato in diversi modi. Fornisce collegamenti nativi per Java, Scala, Python (soprattutto per la distro Anaconda Python) e i linguaggi di programmazione R (R è particolarmente adatto per i grandi dati) e supporta Sql, streaming di dati, machine learning ed elaborazione grafica.

Data lake e database

I data lake sono invece repository di storage che contengono grandi volumi di dati grezzi nel suo formato nativo fino a quando non sono necessari agli utenti aziendali. I data lake sono sono progettati per facilitare agli utenti l’accesso a vaste quantità di dati in caso di necessità.

I database Sql convenzionali sono progettati per transazioni affidabili e query ad hoc, ma sono dotati di restrizioni quali schemi rigidi che li rendono meno adatti per alcuni tipi di applicazioni. I database NoSql rispondono a queste limitazioni e memorizzano e gestiscono i dati in modi che consentono un’elevata velocità operativa e una grande flessibilità.

Caso d’uso: ottimizzazione dei prezzi

Le aziende possono utilizzare grandi analisi dei dati per ottimizzare i prezzi dei prodotti e dei servizi, aiutando a incrementare i ricavi.

Molte sono state sviluppate da aziende che hanno cercato modi migliori per memorizzare contenuti o elaborare dati per siti web. A differenza dei database Sql, molti database NoSql possono essere scalati orizzontalmente su centinaia o migliaia di server.

Un database in-memory (Imdb) è un sistema di gestione database che si basa principalmente sulla memoria principale, piuttosto che su disco, per la memorizzazione dei dati. I database in-memory sono più veloci rispetto ai database ottimizzati su disco, una considerazione importante per gli usi di analisi dei dati di grandi dimensioni e per la creazione di data warehouse e data marts.

Grandi sforzi di analisi dei dati e grandi attività di analisi dei dati richiedono competenze specifiche, sia che provengano dall’interno dell’organizzazione o da esperti esterni. Molte di queste competenze sono legate ai principali componenti della tecnologia dei dati di grandi dimensioni, come Hadoop, Spark, NoSql database, database in-memory e software di analisi.

Altri sono specifici per discipline quali la scienza dei dati, estrazione, analisi statistica e quantitativa, visualizzazione. È inoltre necessario che le persone in possesso di competenze gestionali generali vedano i grandi progetti di dati fino al loro completamento. Dato quanto sono diventati comuni i grandi progetti di analisi dei dati e la carenza di persone con questo tipo di competenze, trovare professionisti esperti potrebbe essere una delle maggiori sfide per le organizzazioni.