Big data (“grandi dati” in inglese) è un termine adoperato per descrivere una raccolta di dati eterogenei, strutturati e non strutturati, definita in termini di volume, velocità, varietà e veridicità. Per la gestione di tale mole di dati sono richieste tecnologie e metodi analitici specifici al fine di estrarre valore per supportare differenti tipi di analisi.
Data la complessità di una definizione univoca del termine big data, ne sono state proposte differenti da varie organizzazioni. Nel 2011, Teradata afferma che “Un sistema di big data eccede/sorpassa/supera i sistemi hardware e software comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva.” Un’ulteriore definizione di big data è stata data dal McKinsey Global Institute: “Un sistema di Big Data si riferisce a dataset la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare.”
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate. Quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni che il sistema deve poter acquisire e gestire per secondo. Negli ultimi due anni c’è stato un incremento del 90% dei dati prodotti nel mondo. Le aziende potrebbero arrivare a produrre zettabyte di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.
Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l’obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l’analisi per sondare gli “umori” dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.
Big data rappresenta anche l’interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.
Con i big data la mole dei dati è dell’ordine degli zettabyte, ovvero miliardi di terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.
Fonte: Wikipedia