Hadoop - Big Data Übersicht

"90% der weltweiten Daten wurden in den letzten Jahren generiert."

Aufgrund des Aufkommens neuer Technologien, Geräte und Kommunikationsmittel wie Social-Networking-Sites wächst die von der Menschheit produzierte Datenmenge jedes Jahr rasant. Die von uns von Anfang an bis 2003 erzeugte Datenmenge betrug 5 Milliarden Gigabyte. Wenn Sie die Daten in Form von Datenträgern stapeln, kann dies ein ganzes Fußballfeld füllen. Der gleiche Betrag wurde alle zwei Tage in erstellt2011und alle zehn Minuten in 2013. Diese Rate wächst immer noch enorm. Obwohl all diese Informationen aussagekräftig sind und bei der Verarbeitung nützlich sein können, werden sie vernachlässigt.

Was ist Big Data?

Big dataist eine Sammlung großer Datensätze, die mit herkömmlichen Computertechniken nicht verarbeitet werden können. Es ist keine einzelne Technik oder ein Werkzeug, sondern es ist zu einem vollständigen Thema geworden, das verschiedene Werkzeuge, Techniken und Rahmenbedingungen umfasst.

Was kommt unter Big Data?

Bei Big Data handelt es sich um Daten, die von verschiedenen Geräten und Anwendungen erzeugt werden. Im Folgenden sind einige der Felder aufgeführt, die unter dem Dach von Big Data zusammengefasst sind.

  • Black Box Data - Es ist eine Komponente von Hubschraubern, Flugzeugen und Jets usw. Es erfasst Stimmen der Flugbesatzung, Aufzeichnungen von Mikrofonen und Kopfhörern sowie die Leistungsinformationen des Flugzeugs.

  • Social Media Data - Soziale Medien wie Facebook und Twitter enthalten Informationen und Ansichten von Millionen von Menschen auf der ganzen Welt.

  • Stock Exchange Data - Die Börsendaten enthalten Informationen zu Kauf- und Verkaufsentscheidungen, die von den Kunden für einen Anteil verschiedener Unternehmen getroffen wurden.

  • Power Grid Data - Die Stromnetzdaten enthalten Informationen, die von einem bestimmten Knoten in Bezug auf eine Basisstation verbraucht werden.

  • Transport Data - Die Transportdaten umfassen Modell, Kapazität, Entfernung und Verfügbarkeit eines Fahrzeugs.

  • Search Engine Data - Suchmaschinen rufen viele Daten aus verschiedenen Datenbanken ab.

Somit umfasst Big Data ein großes Volumen, eine hohe Geschwindigkeit und eine erweiterbare Datenvielfalt. Es gibt drei Arten von Daten.

  • Structured data - Relationale Daten.

  • Semi Structured data - XML-Daten.

  • Unstructured data - Word-, PDF-, Text- und Medienprotokolle.

Vorteile von Big Data

  • Mithilfe der Informationen, die im sozialen Netzwerk wie Facebook gespeichert sind, erfahren die Marketingagenturen Informationen über die Reaktion auf ihre Kampagnen, Werbeaktionen und andere Werbemittel.

  • Mithilfe der Informationen in den sozialen Medien wie Präferenzen und Produktwahrnehmung ihrer Verbraucher planen Produktunternehmen und Einzelhandelsorganisationen ihre Produktion.

  • Mit den Daten zur Krankengeschichte der Patienten bieten Krankenhäuser einen besseren und schnelleren Service.

Big Data-Technologien

Big-Data-Technologien sind wichtig für eine genauere Analyse. Dies kann zu konkreteren Entscheidungen führen, die zu einer höheren betrieblichen Effizienz, Kostensenkungen und geringeren Risiken für das Unternehmen führen.

Um die Leistungsfähigkeit von Big Data nutzen zu können, benötigen Sie eine Infrastruktur, die große Mengen strukturierter und unstrukturierter Daten in Echtzeit verwalten und verarbeiten sowie Datenschutz und Sicherheit schützen kann.

Es gibt verschiedene Technologien auf dem Markt von verschiedenen Anbietern, darunter Amazon, IBM, Microsoft usw., um Big Data zu verarbeiten. Bei der Untersuchung der Technologien, die mit Big Data umgehen, untersuchen wir die folgenden zwei Technologieklassen:

Operative Big Data

Dazu gehören Systeme wie MongoDB, die Betriebsfunktionen für interaktive Echtzeit-Workloads bereitstellen, bei denen Daten hauptsächlich erfasst und gespeichert werden.

NoSQL Big Data-Systeme wurden entwickelt, um die Vorteile neuer Cloud-Computing-Architekturen zu nutzen, die im letzten Jahrzehnt entstanden sind, damit massive Berechnungen kostengünstig und effizient ausgeführt werden können. Dies macht betriebliche Big-Data-Workloads viel einfacher zu verwalten, billiger und schneller zu implementieren.

Einige NoSQL-Systeme bieten Einblicke in Muster und Trends basierend auf Echtzeitdaten mit minimaler Codierung und ohne die Notwendigkeit von Datenwissenschaftlern und zusätzlicher Infrastruktur.

Analytische Big Data

Dazu gehören Systeme wie MPP-Datenbanksysteme (Massively Parallel Processing) und MapReduce, die Analysefunktionen für die retrospektive und komplexe Analyse bieten, die die meisten oder alle Daten berühren können.

MapReduce bietet eine neue Methode zur Analyse von Daten, die die von SQL bereitgestellten Funktionen ergänzt, und ein auf MapReduce basierendes System, das von einzelnen Servern auf Tausende von High- und Low-End-Computern skaliert werden kann.

Diese beiden Technologieklassen ergänzen sich und werden häufig zusammen eingesetzt.

Operative vs. analytische Systeme

Betriebsbereit Analytisch
Latenz 1 ms - 100 ms 1 min - 100 min
Parallelität 1000 - 100.000 1 - 10
Zugriffsmuster Schreibt und liest Liest
Abfragen Selektiv Nicht selektiv
Datenumfang Betriebsbereit Rückblick
Endbenutzer Kunde Datenwissenschaftler
Technologie NoSQL MapReduce, MPP-Datenbank

Big Data-Herausforderungen

Die größten Herausforderungen im Zusammenhang mit Big Data sind:

  • Daten erfassen
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

Um die oben genannten Herausforderungen zu bewältigen, verwenden Unternehmen normalerweise die Hilfe von Unternehmensservern.