빅 데이터 분석-방법론
방법론 측면에서 빅 데이터 분석은 실험 설계의 기존 통계 접근 방식과 크게 다릅니다. 분석은 데이터에서 시작됩니다. 일반적으로 우리는 응답을 설명하는 방식으로 데이터를 모델링합니다. 이 접근 방식의 목표는 응답 동작을 예측하거나 입력 변수가 응답과 어떻게 관련되는지 이해하는 것입니다. 일반적으로 통계 실험 설계에서는 실험이 개발되고 그 결과 데이터가 검색됩니다. 이를 통해 독립성, 정규성 및 무작위 화와 같은 특정 가정이 유지되는 통계 모델에서 사용할 수있는 방식으로 데이터를 생성 할 수 있습니다.
빅 데이터 분석에서는 데이터가 제공됩니다. 우리가 가장 좋아하는 통계 모델을 충족하는 실험을 설계 할 수 없습니다. 대규모 분석 애플리케이션에서는 데이터를 정리하기 위해 많은 양의 작업 (일반적으로 작업의 80 %)이 필요하므로 기계 학습 모델에서 사용할 수 있습니다.
우리는 실제 대규모 애플리케이션에서 따를 수있는 고유 한 방법론이 없습니다. 일반적으로 비즈니스 문제가 정의되면 사용할 방법론을 설계하기위한 연구 단계가 필요합니다. 그러나 일반적인 지침은 언급되어야하며 거의 모든 문제에 적용됩니다.
빅 데이터 분석에서 가장 중요한 작업 중 하나는 statistical modeling, 감독 및 비지도 분류 또는 회귀 문제를 의미합니다. 데이터가 정리되고 사전 처리되고 모델링에 사용할 수있게되면 합리적인 손실 메트릭을 사용하여 여러 모델을 평가할 때주의를 기울여야하며 모델이 구현되면 추가 평가 및 결과를보고해야합니다. 예측 모델링의 일반적인 함정은 모델을 구현하고 성능을 측정하지 않는 것입니다.