Le attività di tutti i giorni comportano la generazione di grandi moli di dati. Se pensiamo ai cellulari, ad internet, alle transazioni finanziarie, ai sensori di piccole e grandi dimensioni, ai GPS e tutta la tecnologia che ci circonda, possiamo intuire la quantità smisurata di informazioni che vengono scambiate ogni secondo.
Questa grande mole di dati è ciò che si definisce “Big Data”: insiemi così voluminosi e complessi da non poter essere trattati con strumenti ordinari.
Per avere un’idea dei volumi: si stima che nel mondo si producano quotidianamente circa 2500 milioni di miliardi di byte di informazioni; basti pensare che, in un giorno, la sola attività di messaggistica su Twitter genera circa 12 Terabyte di dati in “cinguettii”.
Secondo una famosa definizione di Gideon Gartner, i Big Data sono caratterizzati da 3 V: grandi volumi, alte velocità ed estrema varietà; essi richiedono, dunque, strategie sempre più innovative ed efficienti (anche nei costi) per l’elaborazione e il supporto ai processi decisionali.
L’organizzazione e la gestione di grandi moli di dati che, per di più, variano rapidamente col tempo è un problema che investe diversi campi: dalla conservazione alla modellizzazione, dalla statistica alla semantica, dall’elettronica alla reportistica.
Nel 2006 l’associazione internazionale IEEE ha promosso una gara per individuare i 10 algoritmi di analisi dati più promettenti , allo scopo di tracciare delle linee guida per la ricerca nel campo del Big Data, settore complesso nel quale sempre più aziende hanno deciso di investire.
L’interesse è cresciuto notevolmente negli ultimi anni, tanto che anche l ’Unione Europea ha destinato fondi e finanziamenti per incentivare lo sviluppo di nuove tecnologie.
Tra le varie iniziative spicca il progetto BIG, co-fondato dalla Commissione Europea all’interno del settimo programma quadro, atto a creare un punto di incontro tra investitori pubblici e privati.
Grazie al Big Data Analytics – l’insieme degli strumenti e dei processi per il trattamento delle grandi moli di dati – si possono ricavare le informazioni più disparate: dalle analisi di marketing alle preferenze di voto, dai feedback su campagne politiche alle informazioni sulle diffusioni di malattie.
Nel Febbraio 2009, ad esempio, i laboratori Google e il Centro americano di controllo e prevenzione delle epidemie hanno pubblicato un fondamentale articolo sulla possibilità di prevedere la diffusione delle influenze stagionali elaborando le richieste, correlate ai sintomi influenzali, sui motori di ricerca .
Un nuovo studio, condotto dagli scienziati della Microsoft e della Stanford and Columbia University, ha mostrato come sia possibile individuare gli effetti collaterali causati dall’iterazione di farmaci, analizzando le query sui motori di ricerca Google, Bing e Yahoo.
L’esperimento, reso pubblico nel marzo 2013, ha permesso di scoprire iterazioni potenzialmente pericolose tra farmaci, molto prima che venissero tracciate dalla Food and Drug Administration: l’ente governativo americano che si occupa della regolamentazione dei prodotti alimentari e farmaceutici.
Passando ad un campo diverso di applicazione, durante la campagna elettorale americana del 2012, entrambi gli sfidanti (Barack Obama e Mitt Romney) hanno fatto un largo uso della Big Data Analysis, soprattutto su servizi web quali Twitter e Facebook, per ricavare informazioni e statistiche sul proprio possibile elettorato.
Questo evento ha portato alla ribalta le tematiche tecniche e scientifiche legate al mondo del Big Data e, non ultime, le questioni etiche e legali associate al potere di manipolare grandissime masse di informazioni.
Qualunque sia il futuro delle tecnologie descritte, esse porranno grandi sfide sia scientifiche che etiche; i dati rappresentano una spinta importante per l’innovazione ma sarà necessario definire ulteriori leggi per la loro conservazione e protezione, secondo criteri che solo oggi cominciano a divenire più chiari.