Agile Data Science - обработка данных в Agile
В этой главе мы сосредоточимся на разнице между структурированными, полуструктурированными и неструктурированными данными.
Структурированные данные
Структурированные данные - это данные, хранящиеся в формате SQL в таблице со строками и столбцами. Он включает реляционный ключ, который отображается в заранее разработанные поля. Структурированные данные используются в более крупном масштабе.
Структурированные данные составляют от 5 до 10 процентов всех информационных данных.
Полуструктурированные данные
К полуструктурированным данным относятся данные, которых нет в реляционной базе данных. Они включают в себя некоторые организационные свойства, упрощающие анализ. Он включает тот же процесс для их хранения в реляционной базе данных. Примерами полуструктурированной базы данных являются файлы CSV, документы XML и JSON. Базы данных NoSQL считаются полуструктурированными.
Неструктурированные данные
Неструктурированные данные составляют 80 процентов данных. Он часто включает текстовый и мультимедийный контент. Лучшие примеры неструктурированных данных включают аудиофайлы, презентации и веб-страницы. Примерами неструктурированных данных, генерируемых машиной, являются спутниковые изображения, научные данные, фотографии и видео, данные радаров и гидролокаторов.
Приведенная выше структура пирамиды специально ориентирована на объем данных и соотношение, в котором они разбросаны.
Квазиструктурированные данные отображаются как тип между неструктурированными и полуструктурированными данными. В этом руководстве мы сосредоточимся на полуструктурированных данных, которые полезны для гибкой методологии и исследований в области науки о данных.
Полуструктурированные данные не имеют формальной модели данных, но имеют очевидный, самоописывающий шаблон и структуру, которые развиваются в результате их анализа.