빅 데이터 분석-데이터 수명주기
기존 데이터 마이닝 수명주기
조직에 필요한 작업을 구성하고 빅 데이터에서 명확한 통찰력을 제공하는 프레임 워크를 제공하려면 여러 단계의 주기로 생각하는 것이 유용합니다. 결코 선형이 아니며 모든 단계가 서로 관련되어 있음을 의미합니다. 이주기는 다음에 설명 된보다 전통적인 데이터 마이닝주기와 표면적으로 유사합니다.CRISP methodology.
CRISP-DM 방법론
그만큼 CRISP-DM methodology데이터 마이닝을위한 산업 간 표준 프로세스의 약자로, 데이터 마이닝 전문가가 기존 BI 데이터 마이닝의 문제를 해결하기 위해 사용하는 일반적으로 사용되는 접근 방식을 설명하는주기입니다. 기존 BI 데이터 마이닝 팀에서 여전히 사용되고 있습니다.
다음 그림을 살펴보십시오. CRISP-DM 방법론에 의해 설명 된주기의 주요 단계와 이들이 상호 연관되는 방식을 보여줍니다.
CRISP-DM은 1996 년에 구상되었고 내년에는 ESPRIT 자금 조달 이니셔티브에 따라 유럽 연합 프로젝트로 진행되었습니다. 이 프로젝트는 SPSS, Teradata, Daimler AG, NCR Corporation 및 OHRA (보험 회사)의 5 개 회사가 주도했습니다. 이 프로젝트는 마침내 SPSS에 통합되었습니다. 방법론은 데이터 마이닝 프로젝트를 지정하는 방법에 대해 매우 자세하게 설명되어 있습니다.
이제 CRISP-DM 라이프 사이클에 관련된 각 단계에 대해 조금 더 알아 보겠습니다.
Business Understanding−이 초기 단계는 비즈니스 관점에서 프로젝트 목표 및 요구 사항을 이해 한 다음이 지식을 데이터 마이닝 문제 정의로 변환하는 데 중점을 둡니다. 목표를 달성하기 위해 예비 계획이 설계되었습니다. 의사 결정 모델, 특히 Decision Model 및 Notation 표준을 사용하여 구축 된 모델을 사용할 수 있습니다.
Data Understanding − 데이터 이해 단계는 초기 데이터 수집으로 시작하여 데이터에 익숙해 지거나, 데이터 품질 문제를 식별하고, 데이터에 대한 첫 번째 통찰력을 발견하거나, 숨겨진 정보에 대한 가설을 형성하기 위해 흥미로운 하위 집합을 감지하기위한 활동으로 진행됩니다.
Data Preparation− 데이터 준비 단계는 초기 원시 데이터에서 최종 데이터 세트 (모델링 도구에 공급 될 데이터)를 구성하는 모든 활동을 다룹니다. 데이터 준비 작업은 정해진 순서가 아닌 여러 번 수행 될 수 있습니다. 작업에는 테이블, 레코드 및 속성 선택과 모델링 도구를위한 데이터 변환 및 정리가 포함됩니다.
Modeling−이 단계에서는 다양한 모델링 기법을 선택하여 적용하고 해당 매개 변수를 최적의 값으로 보정합니다. 일반적으로 동일한 데이터 마이닝 문제 유형에 대한 몇 가지 기술이 있습니다. 일부 기술에는 데이터 형식에 대한 특정 요구 사항이 있습니다. 따라서 종종 데이터 준비 단계로 돌아 가야합니다.
Evaluation− 프로젝트의이 단계에서 데이터 분석 관점에서 고품질로 보이는 모델 (또는 모델)을 구축했습니다. 모델의 최종 배포를 진행하기 전에 모델을 철저히 평가하고 모델을 구성하기 위해 실행 된 단계를 검토하여 비즈니스 목표를 제대로 달성하는지 확인하는 것이 중요합니다.
핵심 목표는 충분히 고려되지 않은 중요한 비즈니스 문제가 있는지 확인하는 것입니다. 이 단계가 끝나면 데이터 마이닝 결과 사용에 대한 결정이 내려져야합니다.
Deployment− 모델 생성은 일반적으로 프로젝트의 끝이 아닙니다. 모델의 목적이 데이터에 대한 지식을 늘리는 것이더라도 얻은 지식은 고객에게 유용한 방식으로 구성되고 제시되어야합니다.
요구 사항에 따라 배포 단계는 보고서를 생성하는 것처럼 간단하거나 반복 가능한 데이터 점수 (예 : 세그먼트 할당) 또는 데이터 마이닝 프로세스를 구현하는 것처럼 복잡 할 수 있습니다.
대부분의 경우 배포 단계를 수행하는 것은 데이터 분석가가 아닌 고객입니다. 분석가가 모델을 배포하더라도 고객은 생성 된 모델을 실제로 사용하기 위해 수행해야하는 작업을 미리 이해하는 것이 중요합니다.
SEMMA 방법론
SEMMA는 데이터 마이닝 모델링을 위해 SAS에서 개발 한 또 다른 방법입니다. 그것은S앰플, Explore, Modify, Model 및 Asses. 다음은 단계에 대한 간략한 설명입니다.
Sample−이 프로세스는 데이터 샘플링으로 시작됩니다 (예 : 모델링을위한 데이터 세트 선택). 데이터 세트는 검색하기에 충분한 정보를 포함 할 수있을만큼 커야하지만 효율적으로 사용할 수있을만큼 작아야합니다. 이 단계에서는 데이터 파티셔닝도 다룹니다.
Explore −이 단계에서는 데이터 시각화를 통해 변수 간의 예상 및 예상치 못한 관계와 비정상을 발견하여 데이터에 대한 이해를 다룹니다.
Modify − 수정 단계에는 데이터 모델링을 준비하기 위해 변수를 선택, 생성 및 변환하는 방법이 포함되어 있습니다.
Model − 모델 단계에서는 원하는 결과를 제공 할 수있는 모델을 생성하기 위해 준비된 변수에 다양한 모델링 (데이터 마이닝) 기술을 적용하는 데 중점을 둡니다.
Assess − 모델링 결과 평가는 생성 된 모델의 신뢰성과 유용성을 보여줍니다.
CRISM-DM과 SEMMA의 주요 차이점은 SEMMA는 모델링 측면에 초점을 맞추는 반면 CRISP-DM은 해결해야 할 비즈니스 문제를 이해하고 데이터를 이해하고 사전 처리하는 등 모델링 전주기 단계에 더 중요합니다. 입력으로 사용됩니다 (예 : 기계 학습 알고리즘).
빅 데이터 수명주기
오늘날의 빅 데이터 컨텍스트에서 이전 접근 방식은 불완전하거나 차선책입니다. 예를 들어, SEMMA 방법론은 서로 다른 데이터 소스의 데이터 수집 및 전처리를 완전히 무시합니다. 이러한 단계는 일반적으로 성공적인 빅 데이터 프로젝트에서 대부분의 작업을 구성합니다.
빅 데이터 분석주기는 다음 단계로 설명 할 수 있습니다.
- 비즈니스 문제 정의
- Research
- 인적 자원 평가
- 데이터 취득
- 데이터 결합
- 데이터 저장고
- 탐색 적 데이터 분석
- 모델링 및 평가를위한 데이터 준비
- Modeling
- Implementation
이 섹션에서는 빅 데이터 수명주기의 각 단계에 대해 간략하게 설명합니다.
비즈니스 문제 정의
이는 기존 BI 및 빅 데이터 분석 수명주기에서 공통적 인 점입니다. 일반적으로 문제를 정의하고 조직이 얻을 수있는 잠재적 이득이 얼마나되는지 정확하게 평가하는 것은 빅 데이터 프로젝트의 중요한 단계입니다. 이것을 언급하는 것은 분명해 보이지만 프로젝트의 예상 이익과 비용이 무엇인지 평가해야합니다.
연구
같은 상황에서 다른 회사가 한 일을 분석하십시오. 여기에는 회사가 보유한 리소스 및 요구 사항에 다른 솔루션을 적용하는 것이 포함되지만 회사에 적합한 솔루션을 찾는 것이 포함됩니다. 이 단계에서는 향후 단계에 대한 방법론이 정의되어야합니다.
인적 자원 평가
문제가 정의되면 현재 직원이 프로젝트를 성공적으로 완료 할 수 있는지 계속 분석하는 것이 합리적입니다. 기존 BI 팀은 모든 단계에 최적의 솔루션을 제공하지 못할 수 있으므로 프로젝트의 일부를 아웃소싱하거나 더 많은 인력을 고용해야하는 경우 프로젝트를 시작하기 전에 고려해야합니다.
데이터 취득
이 섹션은 빅 데이터 수명주기의 핵심입니다. 결과 데이터 제품을 제공하는 데 필요한 프로필 유형을 정의합니다. 데이터 수집은 프로세스의 중요한 단계입니다. 일반적으로 다른 소스에서 구조화되지 않은 데이터를 수집합니다. 예를 들어, 웹 사이트에서 리뷰를 검색하는 크롤러를 작성하는 것이 포함될 수 있습니다. 여기에는 일반적으로 완료하는 데 상당한 시간이 필요한 다른 언어로 된 텍스트 처리가 포함됩니다.
데이터 결합
예를 들어 웹에서 데이터를 검색 한 후에는 사용하기 쉬운 형식으로 저장해야합니다. 리뷰 예제를 계속 진행하기 위해 각기 다른 데이터 표시가있는 다른 사이트에서 데이터를 검색한다고 가정 해 보겠습니다.
하나의 데이터 소스가 별점 평가 측면에서 리뷰를 제공한다고 가정하면이를 반응 변수에 대한 매핑으로 읽을 수 있습니다. y ∈ {1, 2, 3, 4, 5}. 또 다른 데이터 소스는 두 개의 화살표 시스템을 사용하여 리뷰를 제공합니다. 하나는 업 투표 용이고 다른 하나는 다운 투표 용입니다. 이것은 다음 형식의 응답 변수를 의미합니다.y ∈ {positive, negative}.
두 데이터 소스를 결합하려면이 두 응답 표현을 동등하게 만들기 위해 결정을 내려야합니다. 여기에는 첫 번째 데이터 소스 응답 표현을 두 번째 형식으로 변환하는 것이 포함될 수 있으며, 별 하나는 음수로, 별 다섯 개는 양수로 간주합니다. 이 프로세스는 종종 좋은 품질로 제공되기 위해 많은 시간을 할당해야합니다.
데이터 저장고
데이터가 처리되면 때때로 데이터베이스에 저장해야합니다. 빅 데이터 기술은이 점과 관련하여 많은 대안을 제공합니다. 가장 일반적인 대안은 사용자에게 HIVE 쿼리 언어로 알려진 제한된 버전의 SQL을 제공하는 스토리지 용 Hadoop 파일 시스템을 사용하는 것입니다. 이를 통해 대부분의 분석 작업을 사용자 관점에서 기존 BI 데이터웨어 하우스에서 수행하는 것과 유사한 방식으로 수행 할 수 있습니다. 고려해야 할 다른 스토리지 옵션은 MongoDB, Redis 및 SPARK입니다.
주기의이 단계는 다른 아키텍처를 구현하는 능력 측면에서 인적 자원 지식과 관련이 있습니다. 기존 데이터웨어 하우스의 수정 된 버전은 여전히 대규모 애플리케이션에서 사용되고 있습니다. 예를 들어, teradata와 IBM은 테라 바이트의 데이터를 처리 할 수있는 SQL 데이터베이스를 제공합니다. postgreSQL 및 MySQL과 같은 오픈 소스 솔루션은 여전히 대규모 애플리케이션에 사용되고 있습니다.
백그라운드에서 서로 다른 스토리지가 작동하는 방식에는 차이가 있지만 클라이언트 측에서는 대부분의 솔루션이 SQL API를 제공합니다. 따라서 SQL을 잘 이해하는 것은 여전히 빅 데이터 분석을위한 핵심 기술입니다.
이 단계는 선험적으로 가장 중요한 주제 인 것처럼 보이지만 실제로는 사실이 아닙니다. 필수 단계도 아닙니다. 실시간 데이터로 작업 할 수있는 빅 데이터 솔루션을 구현할 수 있으므로이 경우 모델을 개발하기 위해 데이터를 수집 한 다음 실시간으로 구현하기 만하면됩니다. 따라서 데이터를 공식적으로 저장할 필요가 전혀 없습니다.
탐색 적 데이터 분석
인사이트를 검색 할 수있는 방식으로 데이터를 정리하고 저장 한 후에는 데이터 탐색 단계가 필수입니다. 이 단계의 목적은 데이터를 이해하는 것입니다. 일반적으로 통계 기법을 사용하고 데이터를 플로팅합니다. 이것은 문제 정의가 타당하거나 실행 가능한지 평가하기에 좋은 단계입니다.
모델링 및 평가를위한 데이터 준비
이 단계에는 이전에 검색된 정리 된 데이터를 재구성하고 결 측값 대치, 이상 값 감지, 정규화, 특징 추출 및 특징 선택을위한 통계적 전처리를 사용하는 것이 포함됩니다.
모델링
이전 단계에서는 학습 및 테스트를위한 여러 데이터 세트 (예 : 예측 모델)를 생성해야합니다. 이 단계에서는 다양한 모델을 시도하고 당면한 비즈니스 문제를 해결하기를 기대합니다. 실제로 모델이 비즈니스에 대한 통찰력을 제공하는 것이 일반적으로 바람직합니다. 마지막으로, 남은 데이터 세트에 대한 성능을 평가하여 최상의 모델 또는 모델 조합을 선택합니다.
이행
이 단계에서 개발 된 데이터 제품은 회사의 데이터 파이프 라인에서 구현됩니다. 여기에는 성능을 추적하기 위해 데이터 제품이 작동하는 동안 유효성 검사 체계를 설정하는 것이 포함됩니다. 예를 들어, 예측 모델을 구현하는 경우이 단계에서는 모델을 새 데이터에 적용하고 응답을 사용할 수있게되면 모델을 평가합니다.