데이터 분석-프로세스
데이터 분석은 필요한 정보를 발견하기 위해 데이터를 수집, 변환, 정리 및 모델링하는 프로세스입니다. 이렇게 얻은 결과가 전달되어 결론을 제시하고 의사 결정을 지원합니다. 데이터 시각화는 데이터에서 유용한 패턴을 쉽게 찾을 수 있도록 데이터를 묘사하는 데 사용됩니다. 데이터 모델링과 데이터 분석이라는 용어는 같은 의미입니다.
데이터 분석 프로세스는 본질적으로 반복되는 다음 단계로 구성됩니다.
- 데이터 요구 사항 사양
- 데이터 수집
- 데이터 처리
- 데이터 정리
- 데이터 분석
- Communication
데이터 요구 사항 사양
분석에 필요한 데이터는 질문 또는 실험을 기반으로합니다. 분석을 지시하는 사람들의 요구 사항에 따라 분석에 대한 입력으로 필요한 데이터가 식별됩니다 (예 : 인구 인구). 인구에 관한 특정 변수 (예 : 연령 및 소득)를 지정하고 얻을 수 있습니다. 데이터는 숫자 또는 범주 일 수 있습니다.
데이터 수집
데이터 수집은 데이터 요구 사항으로 식별 된 대상 변수에 대한 정보를 수집하는 프로세스입니다. 강조점은 정확하고 정직한 데이터 수집을 보장하는 것입니다. 데이터 수집은 수집 된 데이터의 정확성을 보장하여 관련 결정이 유효하도록합니다. 데이터 수집은 측정 기준과 개선 할 목표를 모두 제공합니다.
데이터는 조직 데이터베이스에서 웹 페이지의 정보에 이르기까지 다양한 소스에서 수집됩니다. 이렇게 얻은 데이터는 구조화되지 않을 수 있으며 관련없는 정보를 포함 할 수 있습니다. 따라서 수집 된 데이터는 데이터 처리 및 데이터 정리를 거쳐야합니다.
데이터 처리
수집 된 데이터는 분석을 위해 처리되거나 구성되어야합니다. 여기에는 관련 분석 도구에 필요한 데이터 구조화가 포함됩니다. 예를 들어 데이터는 스프레드 시트 또는 통계 응용 프로그램 내의 테이블에서 행과 열에 배치되어야 할 수 있습니다. 데이터 모델을 만들어야 할 수도 있습니다.
데이터 정리
처리되고 구성된 데이터가 불완전하거나 중복되거나 오류가있을 수 있습니다. 데이터 정리는 이러한 오류를 방지하고 수정하는 프로세스입니다. 데이터 유형에 따라 여러 유형의 데이터 정리가 있습니다. 예를 들어 재무 데이터를 정리하는 동안 특정 총계를 신뢰할 수있는 게시 된 수치 또는 정의 된 임계 값과 비교할 수 있습니다. 마찬가지로 정량적 데이터 방법은 이후 분석에서 제외되는 이상 값 탐지에 사용할 수 있습니다.
데이터 분석
처리, 구성 및 정리 된 데이터는 분석 준비가됩니다. 다양한 데이터 분석 기술을 사용하여 요구 사항에 따라 결론을 이해, 해석 및 도출 할 수 있습니다. 데이터 시각화는 데이터 내의 메시지에 대한 추가 통찰력을 얻기 위해 그래픽 형식의 데이터를 검사하는 데 사용할 수도 있습니다.
Correlation, Regression Analysis와 같은 통계 데이터 모델을 사용하여 데이터 변수 간의 관계를 식별 할 수 있습니다. 데이터를 설명하는 이러한 모델은 분석을 단순화하고 결과를 전달하는 데 유용합니다.
이 프로세스에는 추가 데이터 정리 또는 추가 데이터 수집이 필요할 수 있으므로 이러한 활동은 본질적으로 반복적입니다.
통신
데이터 분석 결과는 사용자가 결정 및 추가 조치를 지원하는 데 필요한 형식으로보고됩니다. 사용자의 피드백은 추가 분석으로 이어질 수 있습니다.
데이터 분석가는 표 및 차트와 같은 데이터 시각화 기술을 선택하여 메시지를 사용자에게 명확하고 효율적으로 전달할 수 있습니다. 분석 도구는 표와 차트의 색상 코드와 서식으로 필요한 정보를 강조하는 기능을 제공합니다.