Agile Data Science - Datenverarbeitung in Agile
In diesem Kapitel konzentrieren wir uns auf den Unterschied zwischen strukturierten, halbstrukturierten und unstrukturierten Daten.
Strukturierte Daten
Strukturierte Daten betreffen die im SQL-Format gespeicherten Daten in Tabellen mit Zeilen und Spalten. Es enthält einen relationalen Schlüssel, der vorgefertigten Feldern zugeordnet ist. Strukturierte Daten werden in größerem Maßstab verwendet.
Strukturierte Daten machen nur 5 bis 10 Prozent aller Informatikdaten aus.
Halbstrukturierte Daten
Halbstrukturierte Daten umfassen Daten, die sich nicht in einer relationalen Datenbank befinden. Sie enthalten einige organisatorische Eigenschaften, die die Analyse erleichtern. Es enthält den gleichen Prozess zum Speichern in einer relationalen Datenbank. Beispiele für halbstrukturierte Datenbanken sind CSV-Dateien, XML- und JSON-Dokumente. NoSQL-Datenbanken gelten als semistrukturiert.
Unstrukturierte Daten
Unstrukturierte Daten machen 80 Prozent der Daten aus. Es enthält häufig Text- und Multimedia-Inhalte. Die besten Beispiele für unstrukturierte Daten sind Audiodateien, Präsentationen und Webseiten. Beispiele für maschinengenerierte unstrukturierte Daten sind Satellitenbilder, wissenschaftliche Daten, Fotos und Videos sowie Radar- und Sonardaten.
Die obige Pyramidenstruktur konzentriert sich speziell auf die Datenmenge und das Verhältnis, in dem sie gestreut wird.
Quasistrukturierte Daten erscheinen als Typ zwischen unstrukturierten und halbstrukturierten Daten. In diesem Tutorial konzentrieren wir uns auf halbstrukturierte Daten, was für die agile Methodik und die datenwissenschaftliche Forschung von Vorteil ist.
Halbstrukturierte Daten haben kein formales Datenmodell, sondern ein offensichtliches, selbstbeschreibendes Muster und eine Struktur, die durch ihre Analyse entwickelt werden.