Quale sarà il futuro dei dati?

di Alessandro Chessa, CEO e Data Scientist presso Linkalab e coordinatore scientifico di Business Data Analysis Master

H

o appena messo un mi piace su Facebook all’ingresso di un bar. Ripongo il cellulare in tasca ed entro.
Dietro le quinte dei social accadono cose che neanche posso immaginare. Il mio cellulare è geolocalizzato con una precisione di 10-20m anche se il GPS è spento. Se il bar ha una propria pagina, FB in background emette un checkin che segnala la mia presenza in quel luogo, in quel preciso momento. Questo semplice dato atomico è reso disponibile per chiunque in via anonima, mentre FB lo usa per targettizzare le proprie campagne pubblicitarie, sondando le mie preferenze da tutti i commenti e i mi piace che ho generato nel passato.
Moltiplica questo meccanismo per tutte le tue azioni e i social ai quali sei iscritto e potrai farti un’idea della massa di dati che viene prodotta quotidianamente.

Mappa di calore dei checkin di Facebook nella città di Cagliari. I codici colore a destra indicano la densità di persone che effetua il checkin in quel momento: alte per il rosso e basse per il blu. 

1. Il presente dei dati

Anche nel passato i dati venivano raccolti, in maniera più o meno organizzata, e ciò è cominciato nell’era dei dispositivi elettronici e del personal computer che hanno invaso il mondo del lavoro e in generale nell’automatizzazione dei processi industriali. Ma il vero salto di qualità, soprattutto per i dati personali, si è avuto con la creazione del World Wide Web (WWW) nei laboratori del Cern di Ginevra a opera di Tim Barners Lee. Seguendo l’evoluzione di questo potente standard di annotazione ed esposizione dei dati, basato sulla sintassi dell’HyperText Markup Language (HTML), chiunque avesse accesso alla rete e con un minimo di cognizioni informatiche, poteva generare delle pagine web per illustrare la propria attività di business o scrivere il bollettino di un’associazione.

Col successivo web 2.0 questa possibilità si è allargata a una base di utenti molto più ampia, perché i cosiddetti Content Management Systems (CMS, sistemi editoriali per la gestione dei contenuti) consentivano a chiunque di popolare le pagine web, semplicemente collegandosi al web in una modalità di editing testuale. In tutti e due i casi precedenti il formato dei dati finale rimaneva l’HTML, che pur essendo un formato strutturato, era stato concepito più per la renderizzazione grafica sul browser che per una lettura automatica da parte di software esterni (M2M, Machine to Machine). In realtà Tim Barners Lee aveva concepito dall’inizio il www come un Web of Data, cioè una rete di informazioni annotate semanticamente, di modo che un computer potesse leggere le informazioni in esso contenute in maniera non ambigua e automatica. È il cosiddetto Semantic Web che fa principalmente riferimento alla standard dati Resource Description Framework (RDF), che sta cominciando ad affermarsi in questi anni, ma che stenta ancora a diventare un fenomeno veramente pervasivo sulla Rete.

Un’ulteriore estensione del web 2.0 si è successivamente avuta con i social network come Facebook, Twitter, Instagram, e i sistemi di messaggistica personale come Messenger e Whatsapp. I social network in particolare (assieme al motore di ricerca Google) sono il perfetto esempio di casi business data driven. Facebook, ad esempio, raccoglie quotidianamente tra foto, video e commenti degli utenti circa 1Pb (10^15 byte) di dati ogni giorno. Questo social, che oggi conta circa 2 miliardi di utenti attivi per mese, ha cominciato le proprie attività semplicemente raccogliendo questi dati che dopo vari anni di perdite sono stati la base per attività di advertising molto lucrose, similmente al percorso di Google che invece raccoglieva i dati delle semplici pagine del web 1.0 per istruire il suo motore di ricerca. Facebook e Google sono i casi più eclatanti di aziende che hanno fatto dei dati prodotti dagli utenti il loro business principale. Avendo a disposizione il loro profilo, i loro interessi e i loro gusti, queste aziende sono in grado di predisporre delle campagne di advertising molto mirate e quindi attirare gli inserzionisti disposti a spendere cifre considerevoli per raggiungere i propri potenziali clienti. Se nel caso delle semplici pagine web i dati sono potenzialmente a disposizione di tutti, i dati dei social network, anche per questioni di privacy, non lo sono del tutto.
In genere sono disponibili delle Application Programming Interface (API) che consentono in maniera programmatica di raccogliere alcuni di questi dati che possono variare nella tipologia e nella quantità. Su Facebook è possibile, per esempio, accedere ai dati delle pagine pubbliche, ma non a quelle personali degli utenti, mentre su Twitter è possibile, con alcuni limiti sui volumi, accedere a tutte le informazioni prodotte. Queste API sono ormai standardizzate e nella maggior parte dei casi producono i dati in formato JavaScript Object Notation (JSON), che è un formato di annotazione gerarchico, molto ricco e articolato, e per questo difficile da trattare tramite i database di tipo SQL. Questo ha dato luogo alla nascita di nuovi database, i cosiddetti noSQL, che sono in grado di trattare queste informazioni in maniera più naturale.


Infine sono da menzionare gli Open Data, che si sono sviluppati sotto la spinta di ampi movimenti di opinione che hanno cominciato a pretendere dalla pubblica amministrazione e in generale dalle istituzioni statali, la disponibilità dei dati di interesse dei cittadini
. Anche qui si è posto il problema dei formati e superando le limitazioni dell’HTML delle pagine web, si sono affermati formati più strutturati come il Comma Separated Values (CSV) ed Excel (XLS) fino ad arrivare ai formati semantici già citati (interessante la classificazione proposta da Tim Barners Lee).

2. Nuove frontiere di produzione e storage dei dati

La prossima ondata nella produzione dei dati è già evidente dalle tecnologie che si stanno affermando e che si prevede si svilupperanno nei prossimi anni. A farla da padrone sarà la cosiddetta Internet of Things (IoT). Questa consiste nella produzione di nuovi dispositivi elettronici, che sono in grado di interfacciarsi con l’ambiente esterno tramite dei sensori, raccogliere dati e poi trasmetterli sulla Rete. Lo scenario che si prospetta è simile a quello del www ma in questo caso non saranno le pagine HTML a essere messe in rete ma piuttosto i dispositivi che vivono nel mondo fisico. Si parla in questo caso anche del Web of Things. Qui i protocolli e i formati dei dati, per quanto ci siano già delle proposte, sono tutti da scrivere. Di questa ondata fanno già parte a pieno titolo i nostri smartphone che tracciano il nostro movimento nello spazio e registrano le nostre azioni, ma dobbiamo pensare anche a oggetti più piccoli e diffusi in maniera pervasiva negli spazi urbani, che sono in grado di monitorare in tempo reale ogni parametro fisico e di attività degli utenti, dei mezzi di trasporto e dei servizi pubblici. Sono le Smart City spesso evocate, che promettono di proporre delle città attive, pronte a dare risposte ai loro abitanti, a fornire servizi più efficienti, a monitorare l’ambiente per cercare di abbattere l’inquinamento e la congestione del traffico.

A parte il problema del formato dei dati, che dovrà essere sufficientemente articolato da rappresentare un mondo estraetemene eterogeneo, si pongono delle sfide nuove che caratterizzeranno le scelte di sviluppo tecnologico nei prossimi anni. C’è innanzitutto un problema di processamento real time dei dati, possibilmente già all’interno di questi oggetti con degli storage limitati (Fog Computing), i cui risultati convergono poi in grandi data center condivisi, il cosiddetto Cloud.
Oltre ai nuovi database noSQL occorrerà ripensare in maniera radicale l’organizzazione delle piattaforme informatiche, perché l’abbondanza, l’eterogeneità e il flusso continuo di questi dati impone una riprogettazione delle architetture classiche dei Data Warehouse, basati su strutture e formati rigidi e compartimentati (data silos). Questo mutevole scenario sta favorendo la nascita di un nuovo concetto più aperto e flessibile che viene detto Data Lake, nel quale i dati vengono raccolti senza che vengano da subito strutturati (schema on write) come nei sistemi tradizionali, ma che prendono forma solo nella fase di lettura (schema on read) a seconda delle necessità del momento.


In questo senso il dato ha un valore in quanto tale e non per il fatto che sia arricchito sin dall’inizio da informazioni strutturali, e si lascia a una fase successiva la sua caratterizzazione e connessione con altri dati, magari con schematizzazioni di tipo semantico o di rete complessa. Sul fronte della strutturazione complessa dei dati è prevedibile che si svilupperà il paradigma dei Linked Open Data (LOD) che sono un passo ulteriore dei dati semantici perché tendono a connettere la conoscenza a livello globale, mettendo in relazione i vari domini semantici e rendendo in definitiva il Web of Data un grande database interrogabile direttamente dai computer con un apposito dialetto, derivato dal linguaggio SQL che è il ‘SPARQL  Protocol and RDF Query Language’ (SPARQL, acronimo ricorsivo).

Attualmente la nuvola dei dati LOD è già molto estesa, includendo innumerevoli domini di conoscenza che hanno al centro Dbpedia, che è la semantificazione della nota enciclopedia online Wikipedia. Anche in Italia ci sono dei casi notevoli di servizi LOD e possiamo sicuramente citare quello del Parlamento che ha reso disponibili i dati dei parlamentari e delle votazioni. Da questi dati sono scaturiti degli studi scientifici che hanno anche avuto dei risvolti nell’ambito della comunicazione politica e dei quotidiani nazionali.

 

 

Linked Open Data (LOD) Cloud. La figura rappresenta i domini semantificati in formato RDF e le connessioni che li legano. Da notare al centro la semantificazione Dbpedia della nota enciclopedia Wikipedia.

3. Come potranno aiutarci i dati in futuro?

Nella sezione precedente è stata menzionata nell’ambito delle Smart City l’importanza dei dati, come carburante per alimentare nuovi servizi di monitoraggio ed efficientamento dei servizi pubblici, nei trasporti e nella salvaguardia dell’ambiente. Questi scenari si stanno delineando in questi anni e avranno ulteriori sviluppi, anche pensando a nuove tecnologie basate sull’Intelligenza Artificiale (AI) di nuova generazione come le Self Driving Car. In generale AI, che sarà forse la più grande rivoluzione tecnologica dei prossimi 10 anni, è molto dipendente dalla recente disponibilità di grandi quantità di dati (Big Data). Il Deep Learning, che è alla base di questa rivoluzione, è sicuramente legato sia a una nuova generazioni di modelli di Reti Neurali (Reti Convoluzionali) che alla disponibilità di algoritmi, resi efficienti dalle architetture dei processori grafici (GPU). Ma il vero punto di svolta si è avuto quando questi sistemi di Machine Learning, sistemi che apprendono dagli esempi, hanno potuto far leva sulla massa di dati che si stava accumulando da varie sorgenti di approvvigionamento sulle piattaforme Cloud. Se si pensa ad esempio alle applicazioni di riconoscimento del parlato naturale che abbiamo su tutti i dispositivi cellulari, dobbiamo immaginare che il loro successo è dato dal fatto che i campioni della voce digitalizzati di milioni di utenti convergono in grandi repository online formando una sorta di intelligenza collettiva che addestra il sistema di riconoscimento in maniera molto più efficiente e precisa rispetto al passato. Oggi senza quasi alcuna fase di training i nostri smartphone riconoscono la nostra voce e agiscono di conseguenza, predisponendo un percorso stradale e ordinandoci la cena.

Ancora più eclatanti sono i risultati che si intravedono in ambito medico. Ad esempio per un tumore molto grave come il melanoma, è oggi possibile tramite una app fare una foto della zona della pelle con un neo sospetto e mandarla nel Cloud dove un sistema addestrato con milioni di foto su casi similari è in grado di discriminare la pericolosità della neoformazione . Ormai è evidente che nessun medico sarà in grado di contemplare la conoscenza che una macchina possiede per via dei multiformi dati presenti sul Cloud e dell’esperienza che accumula nel tempo, supportata da ingenti risorse di calcolo.

I problemi di accesso a questa conoscenza e ai dati che noi stessi produciamo non mancano. Soprattutto per l’IoT si prevede che sorgeranno delle isole informative associate ai vari vendor di Smart Objects e non è chiaro quanto i dati prodotti da questi dispositivi saranno interoperabili. Questo pericolo di frammentazione potrebbe attenuare i vantaggi per la comunità degli utenti rafforzando il potere delle singole company. Questo è in realtà un pericolo che riguarda anche i social netwok attuali, in testa Facebook, che stanno accumulando un potere conoscitivo immenso verso i propri utenti, dando indietro alla comunità degli ottimi servizi di advertising per gli inserzionisti, ma solo qualche dato tramite le API pubbliche per tutti gli altri. È ormai improcrastinabile un patto tra gli Stati e queste grandi aziende per trovare un compromesso nella condivisione dei dati che non leda le proprietà intellettuali e il vantaggio competitivo che queste aziende hanno accumulato in questi anni a fronte di ingenti investimenti.

Conclusione 

I nostri smartphone con le app social sono oggi la porta d’ingresso nel nostro mondo sociale e privato, e domani lo saranno gli innumerevoli Smart Objects dell’IoT che accompagneranno le nostre vite. I dati che verranno prodotti parleranno per noi e se vogliamo sopravvivere a questa rivoluzione l’unica soluzione sarà comprendere le vie segrete che questi dati percorrono.

If you torture the data long enough, it will confess

 

Tags: Business Data Analysis

Pubblicato il: 28 Luglio 2017