In un certo senso, i big data sono esattamente quello che sembrano: molti dati. Dall'avvento di Internet, abbiamo prodotto dati in quantità sbalorditive. È stato stimato che in tutto il tempo che precede l'anno 2003, sono stati generati solo 5 exabyte di dati, ovvero 5 miliardi di gigabyte. Ma dal 2003 al 2012, l'importo ha raggiunto circa 2,7 zettabyte (o 2.700 exabyte, o 2,7 trilioni di gigabyte) [fonti: Intel , Lund ]. Secondo i ricercatori di Berkeley, ora stiamo producendo circa 5 quintilioni di byte (o circa 4,3 exabyte) di dati ogni due giorni [fonte: Romanov ].
Il termine "big data" viene solitamente utilizzato per riferirsi a insiemi di dati digitalizzati enormi, in rapida espansione, vari e spesso non strutturati che sono difficili da mantenere utilizzando i database tradizionali. Può includere tutte le informazioni digitali che circolano nell'etere di Internet, le informazioni proprietarie di società con cui abbiamo fatto affari e documenti ufficiali del governo, tra molte altre cose. C'è anche l'implicazione che i dati vengano analizzati per qualche scopo.
Ne abbiamo generati molti noi stessi facendo acquisti online e partecipando ai social media, ma questa è solo la punta dell'iceberg. I big data possono includere documenti digitalizzati, fotografie, video, file audio, tweet e altri post sui social network, e-mail, messaggi di testo, tabulati telefonici, query sui motori di ricerca, tag RFID e scansioni di codici a barre e registrazioni di transazioni finanziarie, sebbene non lo siano le uniche fonti. Stai producendo dati ogni volta che fai qualcosa online, lasciando una traccia digitale che altri possono seguire e estrarre per informazioni utili.
Anche il numero e il tipo di dispositivi che producono dati stanno proliferando. Oltre ai computer di casa e ai sistemi per punti vendita dei rivenditori, abbiamo smartphone connessi a Internet, bilance abilitate al Wi-Fi che twittano il nostro peso, sensori di fitness che tracciano e talvolta condividono dati relativi alla salute, fotocamere che possono pubblicare automaticamente foto e video online e dispositivi satellitari di posizionamento globale ( GPS ) in grado di individuare la nostra posizione sul globo, solo per citarne alcuni. Non dimenticare i sensori meteorologici e del traffico, le telecamere di sorveglianza, i sensori di automobili e aeroplani e altre cose non collegate alle persone che raccolgono costantemente dati. Il gran numero di dispositivi elettronici che generano e caricano dati hanno dato origine al termine "Internet delle cose".
Troverai più definizioni di big data là fuori, quindi non tutti sono completamente d'accordo su ciò che è incluso, ma può essere qualsiasi cosa chiunque possa essere interessato a sapere che può essere sottoposta ad analisi computerizzata. E questi insiemi di dati grandi e ingombranti richiedono nuovi metodi per raccoglierli, archiviarli, elaborarli e analizzarli.
Come vengono analizzati e utilizzati i big data
I big data devono essere raccolti, manipolati, collegati tra loro e interpretati affinché possano essere utili a chiunque. Le aziende e altre entità devono filtrare la grande quantità di dati disponibili per ottenere ciò che è più rilevante per loro. Fortunatamente, hardware e software in grado di elaborare, archiviare e analizzare enormi quantità di informazioni stanno diventando più economici e veloci, quindi il lavoro non richiede più supercomputer enormi e proibitivi. Alcuni dei software stanno diventando più facili da usare, quindi non è necessario un team di programmatori e data scientist per gestire i dati (anche se non fa mai male avere persone esperte in grado di comprendere le tue esigenze).
Le aziende sfruttano i servizi di cloud computing in modo da non dover nemmeno acquistare i propri computer per eseguire tutte quelle operazioni di elaborazione dei dati. I data center , detti anche server farm , possono distribuire batch di dati per l'elaborazione su più server e il numero di server può essere ridimensionato rapidamente in base alle esigenze. Questo calcolo distribuito scalabile viene realizzato utilizzando strumenti innovativi come Apache Hadoop, MapReduce e Massively Parallel Processing (MPP). I database NoSQL sono stati sviluppati come alternative più facilmente scalabili ai tradizionali sistemi di database basati su SQL.
Gran parte di questa elaborazione e analisi di big data è finalizzata a trovare modelli e correlazioni che forniscono informazioni che possono essere sfruttate o utilizzate per prendere decisioni. Le aziende possono ora estrarre enormi quantità di dati per ottenere informazioni sulle abitudini dei consumatori, sulla popolarità dei loro prodotti o su modi più efficienti di fare affari. L'analisi dei big data può essere utilizzata per indirizzare annunci, prodotti e servizi pertinenti ai clienti che ritengono più propensi ad acquistarli o per creare annunci che hanno maggiori probabilità di attirare il pubblico in generale. Le aziende ora stanno persino iniziando a fare cose come inviare annunci e coupon in tempo reale alle persone tramite i loro smartphone per luoghi vicini a luoghi in cui hanno utilizzato di recente le loro carte di credito .
Non è solo per farci comprare roba, comunque. Le aziende possono utilizzare le informazioni per migliorare l'efficienza e le pratiche, come trovare i percorsi di consegna più convenienti o immagazzinare la merce in modo più appropriato. Le agenzie governative possono analizzare i modelli di traffico, la criminalità, l'utilizzo dei servizi pubblici e altre statistiche per migliorare le decisioni politiche e il servizio pubblico. Le agenzie di intelligence possono usarlo per spiare e, si spera, sventare complotti criminali e terroristici. I news outfit possono usarlo per trovare tendenze e sviluppare storie e, naturalmente, scrivere più articoli sui big data.
In sostanza, i big data consentono alle entità di utilizzare dati quasi in tempo reale per prendere decisioni, invece di fare affidamento principalmente su vecchie informazioni come in passato. Ma questa capacità di vedere cosa sta succedendo con noi nel presente, e anche a volte di prevedere il nostro comportamento futuro, può essere un po' inquietante.
Big Data: amico o nemico?
L'idea dei big data mette molti di noi a disagio. Sembra molto simile al Grande Fratello di Orwell, e con gli annunci di aziende che sembrano sapere cosa stiamo facendo e le recenti rivelazioni di spionaggio interno della NSA , è comprensibile che alcune persone trovino inquietante l'enorme quantità di informazioni là fuori su tutti noi .
Le persone possono dire molto su di te da questi dati, inclusi età, sesso, orientamento sessuale, stato civile, livello di reddito, stato di salute, gusti, hobby, abitudini e tutta una serie di altre cose che potresti o meno voler rendere pubbliche conoscenza. Hanno solo bisogno di avere i mezzi e la volontà per raccoglierlo e analizzarlo. E che abbiano buone o cattive intenzioni, possono avere conseguenze indesiderate.
Diamo più informazioni di quante ne realizziamo alle aziende con cui abbiamo rapporti commerciali, soprattutto se utilizziamo carte fedeltà o paghiamo con carte di credito o di debito. Qualcuno può imparare molto su di te solo dall'analisi dei tuoi acquisti. Target ha ricevuto un po' di stampa quando si è scoperto che potevano individuare quali clienti erano incinte e persino quanto fossero vicine alle loro date di scadenza da cose come i tipi di integratori e lozioni che stavano acquistando. In un caso, Target ha iniziato a spedire coupon per prodotti per l'infanzia direttamente a un'adolescente, scatenando l'ira di suo padre contro l'azienda per averle inviato quelle che considerava annunci inappropriati per l'età, finché non ha scoperto la sua gravidanza [fonti: Datoo , Duhigg , Economista ].
I governi e i difensori della privacy hanno tentato di regolamentare il modo in cui le informazioni di identificazione personale (PII) delle persone vengono utilizzate o divulgate al fine di fornire alle persone un certo controllo su ciò che diventa di dominio pubblico. Ma l'analisi predittiva può aggirare molte leggi esistenti (che si occupano principalmente di tipi specifici di dati come quelli finanziari, medicio documenti didattici) consentendo alle aziende di concludere cose su di te indirettamente, e probabilmente a tua insaputa, utilizzando informazioni disparate raccolte da fonti digitali. Alcune aziende utilizzano le informazioni per eseguire operazioni come controllare l'affidabilità creditizia dei potenziali clienti utilizzando dati diversi dal punteggio di credito tipico, che può essere positivo o negativo per te, a seconda di ciò che trovano e di come lo interpretano. Una preoccupazione, tuttavia, è che questo tipo di informazioni personali può portare a discriminazioni in materia di lavoro, alloggio o prestito difficili da rilevare. E peggio ancora, potrebbe non essere sempre del tutto accurato.
È anche possibile che i modelli visti nei big data vengano interpretati erroneamente e portino a decisioni sbagliate. Come ogni strumento, i risultati dipendono tutti da quanto bene viene utilizzato. Anche se la matematica è coinvolta, l'analisi dei big data non è una scienza esatta e la pianificazione e il processo decisionale umano devono entrare da qualche parte. Con enormi set di dati, è necessario valutare ciò che è importante e ciò che può essere ignorato. Ma eseguire bene l'analisi dei big data può offrire alle aziende un vantaggio competitivo.
Tale analisi può essere utilizzata per cose che sono ovviamente buone, come combattere le frodi. Banche, fornitori di carte di credito e altre società che si occupano di denaro ora utilizzano sempre più l'analisi dei big data per individuare schemi insoliti che indicano attività criminali. Su un account individuale, possono essere rapidamente avvisati di segnali d'allarme come acquisti di articoli insoliti, importi che il cliente normalmente non spenderebbe, una posizione geografica strana o un piccolo acquisto di prova seguito da un acquisto molto grande. I modelli su più account, come addebiti simili su carte diverse della stessa area, possono anche avvisare un'azienda di possibili comportamenti fraudolenti.
Enormi set di dati possono aiutare nella ricerca scientifica e sociologica, nelle previsioni elettorali, nelle previsioni meteorologiche e in altre attività utili. I post sui social media e le ricerche su Google sono stati persino utilizzati per scoprire rapidamente dove si stanno verificando focolai di malattie. Quindi non sono tutte cattive notizie. Ci vorrà solo un po' di tempo per risolvere tutti i potenziali problemi e attuare leggi che ci proteggano da potenziali danni. Fino ad allora, se sei preoccupato, potresti voler tornare agli acquisti in contanti e guardare cosa pubblichi su di te. Tuttavia, probabilmente siamo troppo in fondo alla tana del coniglio perché qualcuno di noi sia completamente fuori dal radar.
Molte più informazioni
Nota dell'autore: cosa sono i "big data"?
Come ogni cosa, i big data possono essere usati per il bene, per il male e per molte cose intermedie. Avere annunci e coupon mirati a noi può essere una comodità o un grosso fastidio. Ed è più che snervante la quantità che gli estranei possono imparare su di noi solo perché stiamo rubando la plastica nei loro negozi o usando le loro carte.
Le carte fedeltà che avevo sempre pensato fossero modi per raccogliere dati sui nostri acquisti, ma non avevo davvero apprezzato quanti dati simili ci fossero stati legati individualmente tramite acquisti di debito/credito fino ad ora, o gli incredibili dettagli sulle nostre vite che potrebbero essere distinto da esso. E questo non include nemmeno tutte le altre informazioni su di noi là fuori su Internet.
Il pensiero che ogni mia mossa venga analizzata mi fa venire voglia di uscire un po' dalla griglia, smettere di postare online e usare i contanti per tutto. Anche se la maggior parte di noi, incluso me, probabilmente continuerà così per motivi di comodità. Potrei semplicemente pubblicare e acquistare come se fossi osservato.
articoli Correlati
- Come funzionano i data center
- Come funziona l'integrazione dei dati
- Come funzionano i cookie di Internet
- Come posso scoprire quali informazioni esistono su di me online?
Fonti
- Apache. "Hadoop." (30 novembre 2013) http://hadoop.apache.org/
- Artù, Lisa. "Che cosa sono i big data?" Forbes. 15 agosto 2013. (1 dicembre 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
- Brooks, David. "Ciò che i dati non possono fare." New York Times. 18 febbraio 2013. (4 dicembre 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
- Brooks, David. "Cosa farai dopo." New York Times. 15 aprile 2013. (4 dicembre 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
- Brutto, Andrea. "MapReduce e MPP: due facce della medaglia dei Big Data?" ZDNet. 2 marzo 2012. (5 dicembre 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
- Maggiordomo, Brandon. "Lezioni dai numeri Guru Nate Silver sul lavoro con i big data". Mondo della rete. 11 settembre 2013. (4 dicembre 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
- Cox, Ryan. "Nate Silver scettico sulle tendenze dei big data, si occupa della cultura". Angolo del silicio. 12 settembre 2013. (4 dicembre 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture /
- Crawford, Kate e Jason Schultz. "Big Data e due processi: verso un quadro per riparare i danni predittivi alla privacy". Scuola di giurisprudenza della New York University. 1 ottobre 2013. (4 dicembre 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
- Datoo, Siraj. "Il rapido sviluppo dell'analisi dei big data ha portato a un aumento degli investimenti". Custode. 22 novembre 2013. (29 novembre 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-ha-led-to-increased -investimento
- Duhigg, Charles. "Come le aziende imparano i tuoi segreti". New York Times. 16 febbraio 2012. (2 dicembre 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
- Economista. "Big Data - Sgranocchiare i numeri". 19 maggio 2012. (1 dicembre 2013) http://www.economist.com/node/21554743
- EMC. "EMC: dietro il sipario dei big data". 2012. (1 dicembre 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
- Fitzgerald, Michael. "Big Data: grande minaccia o grande bugia?" Settimana dell'Informazione. 21 novembre 2013. (4 dicembre 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
- Gartner. "Big Data". (29 novembre 2013) http://www.gartner.com/it-glossary/big-data/
- Gnau, Scott. "Mettere i big data nel contesto". Cablato. 10 settembre 2013. (4 dicembre 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
- Henschen, Doug. "I big data rimodellano le previsioni dei canali meteorologici". Settimana dell'Informazione. 25 novembre 2013. (4 dicembre 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776 ?
- IBM. "Che cosa sono i big data?" (4 dicembre 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
- Intel. "Big Data 101: come i big data hanno un grande impatto". (29 novembre 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
- Intel. "Combattere la frode delle carte di credito con i big data". (30 novembre 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper .PDF
- Intel. "Che cosa sono i Big Data?" (30 novembre 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
- Laney, Doug. "Deja VVVu: altri rivendicano il costrutto di Gartner per i big data". Gartner. 14 gennaio 2012. (1 dicembre 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data /
- Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonca e Sreenivas Ramaswamy. "Cambiamenti di gioco: cinque opportunità per la crescita e il rinnovamento degli Stati Uniti". McKinsey Global Institute. Luglio 2013. (3 dicembre 2013) http://www.mckinsey.com/insights/americas/us_game_changers
- MongoDB. "Spiegazione dei big data". (5 dicembre 2013) http://www.mongodb.com/learn/big-data
- Naughton, John. "Perché i big data hanno reso la tua privacy un ricordo del passato." Custode. 5 ottobre 2013. (29 novembre 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
- Novet, Giordania. "Ecco perché il 2014 sarà l'anno dell'"Internet delle cose"." Venturebeat. 25 novembre 2013. (1 dicembre 2013) http://venturebeat.com/2013/11/25/heres-why-2014-sarà-l'anno-di-internet-delle-cose /
- Romanov, Alex. "Mettere un valore in dollari su Big Data Insights". Cablato. 17 luglio 2013. (4 dicembre 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
- SAS. "Che cosa sono i Big Data?" (1 dicembre 2013) http://www.sas.com/big-data/
- Sicular, Svetlana. "La definizione di Big Data di Gartner è composta da tre parti, da non confondere con tre "V". Forbes. 27 marzo 2013. (1 dicembre 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not- essere-confuso-con-tre-vs/
- Zettaset. "Cos'è Big Data e Hadoop?" (29 novembre 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php