Анализ данных - процесс

Анализ данных - это процесс сбора, преобразования, очистки и моделирования данных с целью обнаружения необходимой информации. Полученные таким образом результаты доводятся до сведения, предлагая выводы и подтверждающие принятие решений. Визуализация данных иногда используется для изображения данных, чтобы облегчить обнаружение полезных шаблонов в данных. Термины «Моделирование данных» и «Анализ данных» означают одно и то же.

Процесс анализа данных состоит из следующих этапов, которые являются повторяющимися по своей природе:

  • Спецификация требований к данным
  • Сбор информации
  • Обработка данных
  • Очистка данных
  • Анализ данных
  • Communication

Спецификация требований к данным

Данные, необходимые для анализа, основаны на вопросе или эксперименте. На основе требований тех, кто руководит анализом, определяются данные, необходимые в качестве входных данных для анализа (например, население). Можно указать и получить конкретные переменные, относящиеся к населению (например, возраст и доход). Данные могут быть числовыми или категориальными.

Сбор информации

Сбор данных - это процесс сбора информации о целевых переменных, определенных как требования к данным. Акцент делается на обеспечении точного и честного сбора данных. Сбор данных гарантирует, что собранные данные являются точными, чтобы соответствующие решения были действительными. Сбор данных обеспечивает как основу для измерения, так и цель, которую необходимо улучшить.

Данные собираются из различных источников, от баз данных организаций до информации на веб-страницах. Полученные таким образом данные могут не быть структурированными и содержать нерелевантную информацию. Следовательно, собранные данные необходимо подвергнуть обработке и очистке данных.

Обработка данных

Собранные данные должны быть обработаны или организованы для анализа. Это включает в себя структурирование данных в соответствии с требованиями соответствующих инструментов анализа. Например, данные могут быть размещены в строках и столбцах таблицы в электронной таблице или статистическом приложении. Возможно, потребуется создать модель данных.

Очистка данных

Обработанные и упорядоченные данные могут быть неполными, содержать дубликаты или ошибки. Очистка данных - это процесс предотвращения и исправления этих ошибок. Существует несколько типов очистки данных, которые зависят от типа данных. Например, при очистке финансовых данных некоторые итоги могут сравниваться с достоверными опубликованными цифрами или определенными пороговыми значениями. Аналогичным образом, методы количественных данных могут использоваться для обнаружения выбросов, которые впоследствии будут исключены из анализа.

Анализ данных

Данные, которые обрабатываются, упорядочиваются и очищаются, будут готовы для анализа. Доступны различные методы анализа данных для понимания, интерпретации и вывода выводов на основе требований. Визуализация данных также может использоваться для изучения данных в графическом формате, чтобы получить дополнительную информацию о сообщениях в данных.

Статистические модели данных, такие как корреляция, регрессионный анализ, могут использоваться для определения отношений между переменными данных. Эти модели, описывающие данные, помогают упростить анализ и сообщить результаты.

Процесс может потребовать дополнительной очистки данных или дополнительного сбора данных, и, следовательно, эти действия носят итеративный характер.

Общение

Результаты анализа данных должны быть представлены в формате, необходимом пользователям для обоснования их решений и дальнейших действий. Отзывы пользователей могут привести к дополнительному анализу.

Аналитики данных могут выбирать методы визуализации данных, такие как таблицы и диаграммы, которые помогают ясно и эффективно донести сообщение до пользователей. Инструменты анализа позволяют выделить необходимую информацию с помощью цветовых кодов и форматирования в таблицах и диаграммах.