Home 01net Guide La rinascita dei dati non strutturati

La rinascita dei dati non strutturati

L’avvento di Internet nel mondo commerciale e personale ha cambiato per sempre i nostri modi di vedere le cose. Non è la prima volta nella storia dell’uomo, anzi: questa situazione si ripete regolarmente all’avvento di ogni nuova tecnologia. Una differenza disruptive con il passato però c’è: Internet è diventata disponibile contemporaneamente a un elevatissimo numero di persone, anche se con diverse modalità.
In particolare, Internet ha fornito un canale di ritorno di tutte le valutazioni ed opinioni espresse da persone, robot e sensori. E’ oggi disponibile all’analisi un’incredibile quantità di dati, di caratteristiche profondamente diverse da quelle del passato. Questi dati, se analizzati correttamente, forniscono informazioni quantitative e in tempo ridotto, quando non in tempo reale, sulla misurazione in corso.
In confronto con quelli precedenti, i nuovi dati raccolti sono non strutturati (seguendo la sintassi dell’inglese), di grandi dimensioni (si pensi a testi digitati o al flusso d’un sensore) e di qualità molto bassa. Perché siano fruibili devono diventare strutturati, essere limitati ai soli elementi certi e raggiungere dimensioni facilmente gestibili dalla tecnologia. Se i dati classici venivano incastonati nel data mining e analizzati dalla business intelligence, oggi si parla di big data, data science e analytics. Analizzare il passato serve per estrapolare tendenze ed immaginare l’immediato futuro sul quale proiettare la propria attività.

Strutture dati = Programmi – Algoritmo
Classicamente i dati sono associati a strutture dati e a basi di dati. Algoritmo + strutture dati = programmi, recita il titolo del libro di Niklaus Wirth, il Premio Turing inventore, tra l’altro, del linguaggio di programmazione Pascal.
Il lavoro sulle strutture dati e sull’organizzazione relativa ha portato agli antichi spreadsheet, raccolte strutturate di dati numerici. Successivamente c’è stata l’espansione dei tipi di dato e delle relazioni tra loro, generando i database e i loro sistemi di gestione (Dbms), via via gerarchici, reticolari, relazionali, ad oggetti e semantici.
Nel mondo dei database, il dato di tipo testo fu già una prima sfida di carattere non strutturato, vinta in un periodo relativamente breve ma decisamente convulso.
Due elementi sono particolarmente importanti nel percorso della gestione dei dati. Nel 1974, nell’ambito dei database relazionali nasce l’Sql, Structured Query Language, per interrogare vaste molti di dati. Nel 1998, nell’ambito del Web, viene formalizzato l’Xml, eXtensible Markup Language, un sistema di marcatura di dati di ogni tipo, come una schedatura sulla quale effettuare le vere ricerche. Corredare un dato non strutturato con una scheda Xml rende possibile l’interrogazione e quindi l’analisi di una mole di dati più diversificata del recente passato.

Big data dal tweet all’in-app purchasing
L’accesso al web è essenziale per l’analisi dei dati di oggi. Nascono qui tutti i dati dei social media, dai tweet ai post, dai retweet ai like, unendosi ad altri dati simili, che potrebbero anche non stare su Internet, dalle note del call center alle chat. Anche la posta elettronica rientra in questa famiglia, benché sia semi-strutturata in quanto organizzabile per data, argomento, mittente ed altre categorie.
Quantità di dati corretti e immediatezza nella disponibilità dei medesimi sono le caratteristiche principali dei big data.
Tempo fa dati di questo tipo non erano raccolti in tempo reale, né erano di grandi dimensioni. Le aziende li raccoglievano attraverso i gruppi di ascolto, composti da poche persone, per avere le prime impressioni su un prodotto, servizio o strategia. Il successo definitivo veniva misurato sul venduto, quindi dopo lungo tempo. Oggi queste operazioni possono essere fatte passo-passo e direttamente sulla comunità degli utenti. Inoltre l’approccio di valutazione diretta di ogni passo è stato esteso a tutti gli ambienti: industria, azienda, consumatori.

Dati dal software
Un altro settore che produce grandi quantità di dati semistrutturati è oggi il software. Tecniche moderne ed antiche inseriscono nel codice utile una serie di controlli, opzioni e percorsi, registrando l’attività dell’utente per scopi commerciali. La software gamification, che inserisce questi trigger in un più ampio sistema per orientare e formare l’utente, ma anche l’in-app purchasing, speranza economica di qualsiasi approccio freemium, sono alcuni degli esempi. E non sempre queste operazioni vengono effettuate in modo palese: Windows 10 traccia qualsiasi pressione di tasto, seguendo un’impostazione di default che può essere disabilitata, anche se non tutti sono d’accordo e non è un’operazione immediata. E’ comunque un capovolgimento: dall’opt-in del permission marketing si passa ad un opt-out difensivo, che verrà trascurato dalla stragrande maggioranza dei consumatori.

Dati IoT in cerca di un percorso
Proprio i consumatori, in particolare, sono al centro d’una doppia rivoluzione. Da un lato sono elementi attivi nel chiedere ai produttori di beni o agli erogatori di servizio cosa vorrebbero di nuovo e come modificare quanto già proposto; dall’altro sono essi stessi produttori di dati che li riguardano, com’è non solo nella navigazione di siti ma anche e soprattutto nell’impiego di device quali cardiofrequenzimetri, holter e navigatori satellitari. E ci sono anche super-esposizioni da record. Alcuni sistemi d’illuminazione intelligente, che permettono di controllare luminosità e colore con un’app da smartphone, sono connessi al cloud relativo, al quale inviano centinaia di miglia di byte di informazioni al secondo.
Si tratta di quella che viene definita IoX, dove la X sta per T (things), per E (everything) o qualsiasi altra parola risulti significativa in una proposta collegata. Gli aspetti più rilevanti sono il controllo dei veicoli (flotte o singoli), il tracciamento dei beni (Rfid/Nfc), la stabilità delle infrastrutture, il funzionamento delle fabbriche o la qualità ambientale. Qualsiasi sistema IoX produce un’enorme mole di dati non strutturati, per il cui sfruttamento siamo ancora all’artigianato software.

1 COMMENTO

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php