Big Data. Di che parlo? Se te ne intendi un po’ di informatica, probabilmente ne sai parlare. O magari hai già letto da qualche parte queste due parole.
Forse ti sembrerà strano, ma Big Data è un concetto da interpretare piuttosto letteralmente. Le due parole ci danno, infatti, già abbastanza informazioni sull’argomento. Big Data significa grandi dati. Cioè, grandi raccolte di dati informatici. Così grandi da non poter essere elaborati con i metodi tradizionali.
Sono dati di un’importanza cruciale, di un valore immenso. Ma l’attribuzione di questo valore non deriva dalla loro “quantità”, ma piuttosto dal loro utilizzo.
Per spiegarti come si usano, ti racconterò una storia al limite della fantascienza. Una storia che ha un solo, indiscusso, protagonista.
Google. Big G. Lo conosciamo tutti. Risolve la maggior parte dei nostri rompicapi quotidiani. Sembra sapere tutto. Ma è sempre così infallibile?
2008, Contea di Santa Clara, California.
L’economia globale sta andando in pezzi, ma un gruppo di ragazzi a Mountain View non sembra risentirne. Lavorano per Big G e sono convintissimi di essere gli autori di una rivoluzione.
La loro arma si chiama Google.org e il loro leader è l’epidemiologo Larry Brilliant. Classe ’44, Brilliant immagina un futuro in cui un ragazzino, in Africa, possa aprire Google e scoprire che, in fondo alla strada, c’è un’epidemia di colera.
Science Fiction? No, Google Flu. Secondo i vertici di Mountain View, i dati raccolti fino a quel momento attraverso le ricerche degli utenti sull’influenza stagionale non possono rimanere inascoltati. Se, in una contea dell’Arizona, un numero ragionevole di utenti digita nella search bar di Google, le stesse 40 parole chiave legate all’influenza, allora quella contea può essere classificata come focolaio.
Nasce così GFT, Google Flu Trend.
Qualcuno – in verità pochissimi – lamenta un’invasione della privacy. Per il resto, il mondo scientifico e tecnologico è scosso da un’onda di entusiasmo.
Joseph Breese, capo della divisione anti-influenzale del Center for Disease Control, parla di nuova era in cui la medicina e l’High Tech cooperano per il benessere. Larry Brilliant sente che siamo solo all’inizio di una nuova fase della storia della prevenzione. Tutti i media celebrano Google. La CNN, il NY Times e il Wall Street Journal. Una perla che brilla in mezzo alle macerie dell’economia globale.
Ogni giorno, milioni di persone consultano Big G. Ogni giorno, milioni di persone affidano a Google le proprie paure, i propri desideri, le angosce e le preoccupazioni.
Come un flusso inarrestabile, i Big Data entrano nei server dei motori di ricerca e vengono memorizzati. Numeri e codici diventano chiavi di interpretazione, neanche troppo complesse, della realtà che viviamo. Gli algoritmi riflettono le tendenze e possono arrivare a prevedere il futuro.
Ma è davvero così?
Le nostre ricerche riflettono veramente la nostra realtà? Poniamo che oggi, in una scuola di un certo comune in provincia di Firenze, si sia parlato a tutti gli studenti di prevenzione delle malattie sessualmente trasmissibili. I ragazzi hanno paura e non vogliono che i professori conoscano i loro comportamenti sessuali. Allora, si affidano a Dottor Google. Migliaia di studenti ricercano per giorni informazioni sulla sifilide. Eppure, è altamente improbabile che una scuola di Firenze sia diventata epicentro di un’infezione.
Nonostante il trend.
I Big Data sono, allora, un’arma a doppio taglio. È vero che gli algoritmi potrebbero prevedere l’andamento e la diffusione di una malattia in un certo territorio?
O è più probabile che possano intuirne la percezione o la paura della diffusione da parte di quelli che abitano un certo territorio?
Numeri. Si tratta di numeri. E senza contesto, i numeri restano solo numeri e possono diventare pericolosamente fuorvianti.
È ormai leggenda quell’uomo che passeggiando per Berlino con 99 cellulari, ingannò Google Maps e fece credere a Big G che le vie del centro fossero intasate dal traffico.
I Big Data comportano opportunità e vantaggi, ci fanno acquisire nuove conoscenze, scoprire nuove relazioni, ci consentono di formulare pronostici e personalizzare le offerte. Tuttavia, ad oggi, un uso sistematico del flusso dei dati per stabilire con certezza la diffusione di un’epidemia risulta azzardato. E, entro qualche anno, ha dovuto accettarlo persino Mountain View.
Nella stagione influenzale 2012-2013, Google Flu Trend sovrastima l’incidenza dell’influenza negli Stati Uniti almeno del 50%. I dati sono percezione. La percezione non è realtà. Nella stessa stagione, Big G è impreciso sul picco dell’influenza. Da agosto 2011 a settembre 2013 sbaglia le previsioni relative a 100 settimane su 108. Poi, sottovaluta grandemente l’influenza pandemica da H1N1, noto come virus dell’influenza suina.
Insomma, GFT è un immenso, enorme flop.
Dando per certo che la prima reazione della gente colpita da influenza è cercare informazioni sul web piuttosto che rivolgersi alla sanità, GFT conta sul fatto che dai Big Data derivino una quantità infinita di informazioni tali da consentirci di attuare imprese impossibili con un volume inferiore di dati. Ad esempio, quelli dei Center for Disease Control. La realtà però, è implacabile e smentisce in pochi anni i geni di Mountain View.
Science, la rivista scientifica più famosa al mondo, pubblica nel 2014 un articolo destinato alla leggenda: “The Parable of Google Flu: Traps in Big Data Analysis”, ovvero “La parabola di Google Flu: Trappole nell’analisi dei Data”.
La star del mondo informatico si vede costretta a deporre le armi.
Non voglio però unirmi al sonito delle solite vecchie mille voci che forse ipocritamente prima acclamano e poi criticano. Con Ryan Kennedy posso dire che GFT è uno straordinario pezzo di ingegneria. E, come ogni prodotto della tecnica, può essere perfezionato.
Del resto, non occorre scomodare i massimi sistemi dell’analisi dei dati per sostenere che la qualità non corrisponde sempre alla quantità.
Dunque, più di decodificare l’enorme massa dei Big Data, la sfida dei prossimi anni sarà probabilmente quella di selezionare le fonti attendibili e le sorgenti di dati utilizzabili.
L’era dei Big Data, forse, non è ancora arrivata. Ma nessuno può escludere che arriverà pre