
In gewisser Weise ist Big Data genau das, wonach es sich anhört – viele Daten. Seit dem Aufkommen des Internets produzieren wir Daten in erstaunlichen Mengen. Es wird geschätzt, dass in der ganzen Zeit bis zum Jahr 2003 nur 5 Exabyte an Daten generiert wurden – das entspricht 5 Milliarden Gigabyte. Aber von 2003 bis 2012 erreichte die Menge rund 2,7 Zettabyte (oder 2.700 Exabyte oder 2,7 Billionen Gigabyte) [Quellen: Intel , Lund ]. Laut Berkeley-Forschern produzieren wir jetzt alle zwei Tage etwa 5 Quintillionen Bytes (oder etwa 4,3 Exabytes) an Daten [Quelle: Romanov ].
Der Begriff „Big Data“ wird normalerweise verwendet, um sich auf riesige, schnell wachsende, vielfältige und oft unstrukturierte Datensätze digitalisierter Daten zu beziehen, die mit herkömmlichen Datenbanken schwer zu pflegen sind. Es kann alle digitalen Informationen enthalten, die da draußen im Äther des Internets herumschwirren, die urheberrechtlich geschützten Informationen von Unternehmen, mit denen wir Geschäfte gemacht haben, und offizielle Regierungsunterlagen, neben vielen anderen Dingen. Es gibt auch die Implikation, dass die Daten für einen bestimmten Zweck analysiert werden.
Wir haben viel davon selbst durch Online-Einkäufe und die Teilnahme an sozialen Medien generiert, aber das ist nur die Spitze des Eisbergs. Big Data können digitalisierte Dokumente, Fotos, Videos, Audiodateien, Tweets und andere Posts in sozialen Netzwerken, E-Mails, Textnachrichten, Telefonaufzeichnungen, Suchmaschinenabfragen, RFID-Tag- und Barcode-Scans und Finanztransaktionsaufzeichnungen umfassen, obwohl dies nicht der Fall ist die einzigen Quellen. Jedes Mal, wenn Sie etwas online tun, produzieren Sie Daten und hinterlassen eine digitale Spur, auf der andere vorbeikommen und nach nützlichen Informationen suchen können.
Auch die Zahl und Art der Geräte, die Daten produzieren, hat zugenommen. Neben Heimcomputern und Point-of-Sale-Systemen von Einzelhändlern haben wir mit dem Internet verbundene Smartphones, WiFi-fähige Waagen, die unser Gewicht twittern, Fitnesssensoren, die gesundheitsbezogene Daten verfolgen und manchmal teilen, Kameras, die automatisch Fotos und Videos online stellen können und Global Positioning Satellite ( GPS ) Geräte, die unseren Standort auf der ganzen Welt lokalisieren können, um nur einige zu nennen. Vergessen Sie nicht Wetter- und Verkehrssensoren, Überwachungskameras, Sensoren in Autos und Flugzeugen und andere Dinge, die nichts mit Personen zu tun haben, die ständig Daten sammeln. Die große Anzahl elektronischer Geräte, die Daten generieren und hochladen, hat den Begriff „Internet der Dinge“ entstehen lassen.
Sie werden mehrere Definitionen von Big Data finden, daher sind sich nicht alle darüber einig, was enthalten ist, aber es kann alles sein, was jeden interessieren könnte, das einer Computeranalyse unterzogen werden kann. Und diese großen, unhandlichen Datensätze erfordern neue Methoden, um sie zu sammeln, zu speichern, zu verarbeiten und zu analysieren.
Wie Big Data analysiert und genutzt wird

Big Data müssen gesammelt, verarbeitet, verknüpft und interpretiert werden, damit sie für jeden von Nutzen sind. Unternehmen und andere Einrichtungen müssen die riesige Menge an verfügbaren Daten filtern, um die für sie relevantesten Daten zu finden. Glücklicherweise werden Hard- und Software, die riesige Informationsmengen verarbeiten, speichern und analysieren können, immer billiger und schneller, sodass die Arbeit keine riesigen und unerschwinglich teuren Supercomputer mehr erfordert. Ein Teil der Software wird benutzerfreundlicher, sodass nicht unbedingt ein Team von Programmierern und Datenwissenschaftlern erforderlich ist, um die Daten zu verarbeiten (obwohl es nie schadet, sachkundige Personen zu haben, die Ihre Anforderungen verstehen können).
Unternehmen nutzen Cloud-Computing-Dienste, damit sie nicht einmal ihre eigenen Computer kaufen müssen, um all diese Datenverarbeitung zu erledigen. Rechenzentren , auch Serverfarmen genannt , können Datenstapel zur Verarbeitung auf mehrere Server verteilen, und die Anzahl der Server kann je nach Bedarf schnell hoch- oder herunterskaliert werden. Dieses skalierbare verteilte Computing wird mit innovativen Tools wie Apache Hadoop, MapReduce und Massively Parallel Processing (MPP) erreicht. NoSQL-Datenbanken wurden als leichter skalierbare Alternativen zu herkömmlichen SQL-basierten Datenbanksystemen entwickelt.
Ein Großteil dieser Big-Data-Verarbeitung und -Analyse zielt darauf ab, Muster und Korrelationen zu finden, die Erkenntnisse liefern, die ausgenutzt oder zum Treffen von Entscheidungen verwendet werden können. Unternehmen können jetzt riesige Datenmengen nach Informationen über Verbrauchergewohnheiten, die Beliebtheit ihrer Produkte oder effizientere Geschäftsmethoden durchsuchen. Big-Data-Analysen können verwendet werden, um relevante Anzeigen, Produkte und Dienstleistungen auf die Kunden auszurichten, von denen sie glauben, dass sie sie am ehesten kaufen werden, oder um Anzeigen zu erstellen, die mit größerer Wahrscheinlichkeit die breite Öffentlichkeit ansprechen. Unternehmen fangen jetzt sogar damit an, Menschen über ihre Smartphones Echtzeit-Anzeigen und Coupons für Orte zu senden, die sich in der Nähe von Orten befinden, an denen sie kürzlich ihre Kreditkarten verwendet haben .
Es dient jedoch nicht nur dazu, uns Sachen kaufen zu lassen. Unternehmen können die Informationen nutzen, um die Effizienz und Praktiken zu verbessern, z. B. um die kostengünstigsten Lieferwege zu finden oder Waren angemessener zu lagern. Regierungsbehörden können Verkehrsmuster, Kriminalität, Nutzung von Versorgungsunternehmen und andere Statistiken analysieren, um politische Entscheidungen und den öffentlichen Dienst zu verbessern. Geheimdienste können damit kriminelle und terroristische Pläne ausspionieren und hoffentlich vereiteln. Nachrichtenagenturen können damit Trends finden und Geschichten entwickeln und natürlich mehr Artikel über Big Data schreiben.
Im Wesentlichen ermöglicht Big Data Unternehmen, Daten nahezu in Echtzeit zu verwenden, um Entscheidungen zu treffen, anstatt sich wie in der Vergangenheit hauptsächlich auf alte Informationen zu verlassen. Aber diese Fähigkeit, zu sehen, was in der Gegenwart mit uns vor sich geht, und manchmal sogar unser zukünftiges Verhalten vorherzusagen, kann ein bisschen unheimlich sein.
Big Data: Freund oder Feind?

Die Vorstellung von Big Data bereitet vielen von uns Unbehagen. Es klingt sehr nach Orwells Big Brother, und mit Anzeigen von Unternehmen, die zu wissen scheinen, was wir tun, und den jüngsten Enthüllungen der NSA inländischer Spionage, ist es verständlich, dass einige Leute die riesige Menge an Informationen über uns alle beunruhigend finden .
Die Leute können anhand dieser Daten viel über Sie verraten, einschließlich Ihres Alters, Geschlechts, Ihrer sexuellen Orientierung, Ihres Familienstands, Ihres Einkommensniveaus, Ihres Gesundheitszustands, Ihres Geschmacks, Ihrer Hobbys, Gewohnheiten und einer ganzen Reihe anderer Dinge, die Sie möglicherweise öffentlich machen möchten oder nicht Wissen. Sie müssen nur die Mittel und den Willen haben, sie zu sammeln und zu analysieren. Und ob sie es gut oder böse meinen, es kann unbeabsichtigte Folgen haben.
Wir geben mehr Informationen an Unternehmen weiter, als uns bewusst ist, mit denen wir Geschäfte tätigen, insbesondere wenn wir Kundenkarten verwenden oder mit Kredit- oder Debitkarten bezahlen. Jemand kann durch die Analyse Ihrer Einkäufe viel über Sie erfahren. Target erhielt einige Presse, als festgestellt wurde, dass sie anhand von Dingen wie den Arten von Nahrungsergänzungsmitteln und Lotionen, die sie kauften, feststellen konnten, welche Kunden schwanger waren und wie nahe sie ihrem Fälligkeitstermin waren. In einem Fall begann Target damit, Coupons für Babyprodukte direkt an ein junges Mädchen zu schicken, was den Zorn ihres Vaters auf das Unternehmen entfachte, weil es ihr altersunangemessene Anzeigen geschickt hatte – bis er von ihrer Schwangerschaft erfuhr [Quellen: Datoo , Duhigg , Ökonom ].
Regierungen und Befürworter des Datenschutzes haben Versuche unternommen, die Art und Weise zu regulieren, wie personenbezogene Daten (PII) von Personen verwendet oder offengelegt werden, um Einzelpersonen ein gewisses Maß an Kontrolle darüber zu geben, was öffentlich bekannt wird. Aber Predictive Analytics kann viele bestehende Gesetze umgehen (die sich hauptsächlich mit bestimmten Arten von Daten wie Ihren finanziellen, medizinischen ,oder Bildungsaufzeichnungen), indem sie Unternehmen indirekt und wahrscheinlich ohne Ihr Wissen auf Dinge über Sie schließen lassen, indem sie unterschiedliche Informationen verwenden, die aus digitalen Quellen gesammelt wurden. Einige Unternehmen verwenden die Informationen, um beispielsweise die Kreditwürdigkeit potenzieller Kunden zu überprüfen, indem sie andere Daten als die typische Kreditwürdigkeit verwenden, die für Sie gut oder schlecht sein können, je nachdem, was sie finden und wie sie sie interpretieren. Eine Sorge ist jedoch, dass diese Art von persönlichen Informationen zu einer schwer zu erkennenden Diskriminierung bei Beschäftigung, Wohnung oder Kreditvergabe führen kann. Und schlimmer noch, es ist möglicherweise nicht immer ganz genau.
Es ist auch möglich, dass Muster, die in Big Data zu sehen sind, falsch interpretiert werden und zu schlechten Entscheidungen führen. Wie bei jedem Werkzeug hängen die Ergebnisse davon ab, wie gut es eingesetzt wird. Auch wenn es um Mathematik geht, Big Data Analytics ist keine exakte Wissenschaft, und menschliche Planung und Entscheidungsfindung muss irgendwo eingreifen. Bei riesigen Datensätzen muss entschieden werden, was wichtig ist und was ignoriert werden kann. Aber eine gute Big-Data-Analyse kann Unternehmen einen Wettbewerbsvorteil verschaffen.
Eine solche Analyse kann für Dinge verwendet werden, die offensichtlich gut sind, wie zum Beispiel die Betrugsbekämpfung. Banken, Kreditkartenanbieter und andere Unternehmen, die mit Geld handeln, nutzen jetzt zunehmend Big-Data-Analysen, um ungewöhnliche Muster zu erkennen, die auf kriminelle Aktivitäten hinweisen. Bei einem Einzelkonto können sie schnell auf Warnsignale wie den Kauf ungewöhnlicher Artikel, Beträge, die der Kunde normalerweise nicht ausgeben würde, einen ungewöhnlichen geografischen Standort oder einen kleinen Testkauf, gefolgt von einem sehr großen Kauf, aufmerksam gemacht werden. Muster über mehrere Konten hinweg, wie ähnliche Belastungen auf verschiedenen Karten aus demselben Gebiet, können ein Unternehmen ebenfalls auf mögliches betrügerisches Verhalten aufmerksam machen.
Riesige Datensätze können bei wissenschaftlicher und soziologischer Forschung, Wahlvorhersagen, Wettervorhersagen und anderen lohnenden Aktivitäten hilfreich sein. Social-Media-Posts und Google-Suchen wurden sogar verwendet, um schnell herauszufinden, wo Krankheitsausbrüche auftreten. Es sind also nicht nur schlechte Nachrichten. Es wird nur eine Weile dauern, alle potenziellen Probleme auszuarbeiten und Gesetze umzusetzen, die uns vor potenziellem Schaden schützen würden. Wenn Sie sich Sorgen machen, sollten Sie bis dahin zu Barkäufen zurückkehren und beobachten, was Sie über sich selbst veröffentlichen. Trotzdem sind wir wahrscheinlich zu weit unten im Kaninchenbau, als dass einer von uns vollständig vom Radar verschwunden wäre.
Viele weitere Informationen
Anmerkung des Autors: Was ist „Big Data“?
Wie alles andere kann Big Data zum Guten, zum Schlechten und für viele Dinge dazwischen verwendet werden. An uns gerichtete Anzeigen und Coupons können eine Annehmlichkeit oder ein großes Ärgernis sein. Und es ist mehr als nur ein bisschen beunruhigend, wie viel Fremde über uns erfahren können, nur weil wir in ihren Läden Plastik klauen oder ihre Karten benutzen.
Ich hatte immer gedacht, dass Treuekarten eine Möglichkeit sind, Daten über unsere Einkäufe zu sammeln, aber ich hatte bis jetzt nicht wirklich verstanden, wie viele ähnliche Daten durch Debit-/Kreditkäufe an uns persönlich gebunden wurden, oder die unglaublichen Details über unser Leben, die dies könnten daran zu erkennen sein. Und das schließt noch nicht einmal all die anderen Informationen über uns ein, die es im Internet gibt.
Der Gedanke daran, dass jede meiner Bewegungen analysiert wird, bringt mich dazu, etwas vom Netz zu gehen, aufhören, online zu posten und Bargeld für alles zu verwenden. Obwohl die meisten von uns, einschließlich mir, wahrscheinlich aus Bequemlichkeitsgründen so weitermachen werden wie bisher. Ich könnte einfach posten und kaufen, als ob ich beobachtet würde.
Zum Thema passende Artikel
- Wie Rechenzentren funktionieren
- So funktioniert die Datenintegration
- Funktionsweise von Internet-Cookies
- Wie kann ich herausfinden, welche Informationen online über mich existieren?
Quellen
- Apache. "Hadoop." (30. November 2013) http://hadoop.apache.org/
- Arthur, Lisa. "Was ist Big Data?" Forbes. 15. August 2013. (1. Dezember 2013) http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/
- Bäche, David. "Was Daten nicht können." New York Times. 18. Februar 2013. (4. Dezember 2013) http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do.html?_r=1&
- Bäche, David. "Was du als nächstes tun wirst." New York Times. 15. April 2013. (4. Dezember 2013) http://www.nytimes.com/2013/04/16/opinion/brooks-what-youll-do-next.html
- Brust, Andreas. "MapReduce und MPP: Zwei Seiten der Big-Data-Medaille?" ZDNet. 2. März 2012. (5. Dez. 2013) http://www.zdnet.com/blog/big-data/mapreduce-and-mpp-two-sides-of-the-big-data-coin/121
- Butler, Brandon. "Lektionen von Zahlen-Guru Nate Silver über die Arbeit mit Big Data." Netzwelt. 11. Sept. 2013. (4. Dez. 2013) http://www.networkworld.com/news/2013/091113-nate-silver-big-data-273740.html
- Cox, Ryan. „Nate Silver ist skeptisch gegenüber Big-Data-Trends, setzt auf Kultur.“ Silikon-Winkel. 12. Sept. 2013. (4. Dez. 2013) http://siliconangle.com/blog/2013/09/12/nate-silver-skeptical-of-big-data-trends-keys-in-on-culture /
- Crawford, Kate und Jason Schultz. "Big Data und ordnungsgemäße Verfahren: Auf dem Weg zu einem Rahmenwerk zur Wiedergutmachung von vorausschauenden Datenschutzverletzungen." Juristische Fakultät der New York University. 1. Oktober 2013. (4. Dezember 2013) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325784
- Dato, Siraj. "Die schnelle Entwicklung in der Big-Data-Analyse hat zu erhöhten Investitionen geführt." Wächter. 22. Nov. 2013. (29. Nov. 2013) http://www.theguardian.com/news/2013/nov/22/rapid-development-in-big-data-analytics-has-led-to-increased -Anlage
- Duhigg, Charles. "Wie Unternehmen Ihre Geheimnisse erfahren." New York Times. 16. Februar 2012. (2. Dezember 2013) http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=6&_r=3&hp&pagewanted=all&
- Ökonom. "Big Data - Knirschen der Zahlen." 19. Mai 2012. (1. Dezember 2013) http://www.economist.com/node/21554743
- EMV. "EMC: Hinter dem Big-Data-Vorhang." 2012. (1. Dezember 2013) http://www.emc.com/campaign/global/big-data/hfbd-infographic-4web-1500.jpg?cmp=micro-big_data-general-emc
- Fitzgerald, Michael. "Big Data: Große Bedrohung oder große Lüge?" InformationsWoche. 21. Nov. 2013. (4. Dez. 2013) http://www.informationweek.com/big-data-big-threat-or-big-lie/d/d-id/1112668?
- Gärtner. "Große Daten." (29. Nov. 2013) http://www.gartner.com/it-glossary/big-data/
- Gnau, Scott. "Big Data in Kontext setzen." Verdrahtet. 10. Sept. 2013. (4. Dez. 2013) http://www.wired.com/insights/2013/09/putting-big-data-in-context/
- Henschen, Doug. "Big Data verändert Wetterkanalvorhersagen." InformationsWoche. 25. Nov. 2013. (4. Dez. 2013) http://www.informationweek.com/big-data/software-platforms/big-data-reshapes-weather-channel-predictions/d/d-id/1112776 ?
- IBM. "Was ist Big Data?" (4. Dezember 2013) http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html
- Intel. "Big Data 101: Wie Big Data große Auswirkungen hat." (29. November 2013) http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html
- Intel. "Kreditkartenbetrug mit Big Data bekämpfen." (30. November 2013) http://www.intel.com/content/dam/www/public/us/en/documents/white-papers/combat-credit-card-fraud-with-big-data-whitepaper .pdf
- Intel. "Was ist Big Data?" (30. November 2013) http://www.intel.com/content/www/us/en/big-data/big-data-what-is-big-data-landing.html
- Lane, Doug. "Deja VVVu: Andere behaupten Gartners Konstrukt für Big Data." Gärtner. 14. Januar 2012. (1. Dezember 2013) http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data /
- Lund, Susan, James Manyika, Scott Nyquist, Lenny Mendonca und Sreenivas Ramaswamy. "Game Changers: Fünf Möglichkeiten für US-Wachstum und Erneuerung." McKinsey Global Institute. Juli 2013. (3. Dezember 2013) http://www.mckinsey.com/insights/americas/us_game_changers
- MongoDB. "Big Data erklärt." (5. Dezember 2013) http://www.mongodb.com/learn/big-data
- Naughton, John. „Warum Big Data Ihre Privatsphäre der Vergangenheit angehört.“ Wächter. 5. Okt. 2013. (29. Nov. 2013) http://www.theguardian.com/technology/2013/oct/06/big-data-predictive-analytics-privacy
- Novett, Jordan. „Hier ist der Grund, warum 2014 das Jahr des ‚Internets der Dinge‘ sein wird.“ Venturebeat. 25. Nov. 2013. (1. Dez. 2013) http://venturebeat.com/2013/11/25/heres-why-2014-will-be-the-year-of-the-internet-of-things /
- Romanow, Alex. "Big Data Insights einen Dollar wert geben." Verdrahtet. 17. Juli 2013. (4. Dezember 2013) http://www.wired.com/insights/2013/07/putting-a-dollar-value-on-big-data-insights/
- SAS. "Was ist Big Data?" (1. Dezember 2013) http://www.sas.com/big-data/
- Sicular, Swetlana. "Gartners Big-Data-Definition besteht aus drei Teilen, nicht zu verwechseln mit drei Vs." Forbes. 27. März 2013. (1. Dez. 2013) http://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not- mit-drei-verwechselt-werden-vs/
- Zettaset. "Was ist Big Data und Hadoop?" (29. November 2013) http://www.zettaset.com/info-center/what-is-big-data-and-hadoop.php