데이터 마이닝-평가

데이터웨어 하우스

데이터웨어 하우스는 경영진의 의사 결정 프로세스를 지원하기 위해 다음과 같은 특성을 나타냅니다.

  • Subject Oriented− 데이터웨어 하우스는 조직의 지속적인 운영이 아닌 주제에 대한 정보를 제공하기 때문에 주제 지향적입니다. 이러한 주제는 제품, 고객, 공급 업체, 판매, 수익 등이 될 수 있습니다. 데이터웨어 하우스는 진행중인 운영에 초점을 맞추지 않고 의사 결정을위한 데이터 모델링 및 분석에 초점을 맞 춥니 다.

  • Integrated − 데이터웨어 하우스는 관계형 데이터베이스, 플랫 파일 등과 같은 이기종 소스의 데이터를 통합하여 구성됩니다. 이러한 통합은 데이터의 효과적인 분석을 향상시킵니다.

  • Time Variant− 데이터웨어 하우스에서 수집 된 데이터는 특정 기간으로 식별됩니다. 데이터웨어 하우스의 데이터는 기록 관점에서 정보를 제공합니다.

  • Non-volatile− 비 휘발성은 새 데이터가 추가 될 때 이전 데이터가 제거되지 않음을 의미합니다. 데이터웨어 하우스는 운영 데이터베이스와 별도로 유지되므로 운영 데이터베이스의 빈번한 변경은 데이터웨어 하우스에 반영되지 않습니다.

데이터웨어 하우징

데이터웨어 하우징은 데이터웨어 하우스를 구성하고 사용하는 프로세스입니다. 데이터웨어 하우스는 여러 이기종 소스의 데이터를 통합하여 구성됩니다. 분석보고, 구조적 및 / 또는 임시 쿼리 및 의사 결정을 지원합니다.

데이터웨어 하우징에는 데이터 정리, 데이터 통합 ​​및 데이터 통합이 포함됩니다. 이기종 데이터베이스를 통합하기 위해 다음 두 가지 접근 방식이 있습니다.

  • 쿼리 기반 접근 방식
  • 기반 접근 방식 업데이트

쿼리 기반 접근 방식

이것은 이기종 데이터베이스를 통합하는 전통적인 접근 방식입니다. 이 접근 방식은 여러 이기종 데이터베이스 위에 래퍼 및 통합자를 구축하는 데 사용됩니다. 이러한 통합자는 중개자라고도합니다.

쿼리 기반 접근 프로세스

  • 쿼리가 클라이언트 측에 발행되면 메타 데이터 사전이 쿼리를 관련된 개별 이기종 사이트에 적합한 쿼리로 변환합니다.

  • 이제 이러한 쿼리가 매핑되어 로컬 쿼리 프로세서로 전송됩니다.

  • 이기종 사이트의 결과는 글로벌 응답 세트에 통합됩니다.

단점

이 접근 방식에는 다음과 같은 단점이 있습니다.

  • 쿼리 기반 접근 방식에는 복잡한 통합 및 필터링 프로세스가 필요합니다.

  • 빈번한 쿼리에는 매우 비효율적이며 비용이 많이 듭니다.

  • 이 방법은 집계가 필요한 쿼리에 비용이 많이 듭니다.

업데이트 기반 접근 방식

오늘날의 데이터웨어 하우스 시스템은 앞서 논의한 기존 접근 방식이 아닌 업데이트 중심 접근 방식을 따릅니다. 업데이트 기반 접근 방식에서는 여러 이기종 소스의 정보가 미리 통합되어웨어 하우스에 저장됩니다. 이 정보는 직접 쿼리 및 분석에 사용할 수 있습니다.

장점

이 접근 방식에는 다음과 같은 장점이 있습니다.

  • 이 접근 방식은 고성능을 제공합니다.

  • 사전에 의미 론적 데이터 저장소에서 데이터를 복사, 처리, 통합, 주석 달기, 요약 및 재구성 할 수 있습니다.

쿼리 처리에는 로컬 소스에서의 처리와의 인터페이스가 필요하지 않습니다.

데이터웨어 하우징 (OLAP)에서 데이터 마이닝 (OLAM)으로

온라인 분석 마이닝은 다차원 데이터베이스의 데이터 마이닝 및 마이닝 지식과 함께 온라인 분석 처리와 통합됩니다. 다음은 OLAP과 OLAM의 통합을 보여주는 다이어그램입니다.

OLAM의 중요성

OLAM은 다음과 같은 이유로 중요합니다.

  • High quality of data in data warehouses− 데이터 마이닝 도구는 통합되고 일관되고 정리 된 데이터에 대해 작업하는 데 필요합니다. 이러한 단계는 데이터 전처리에 많은 비용이 듭니다. 이러한 사전 처리로 구성된 데이터웨어 하우스는 OLAP 및 데이터 마이닝을위한 고품질 데이터의 귀중한 소스입니다.

  • Available information processing infrastructure surrounding data warehouses − 정보 처리 인프라는 여러 이기종 데이터베이스, 웹 액세스 및 서비스 시설,보고 및 OLAP 분석 도구의 액세스, 통합, 통합 및 변환을 의미합니다.

  • OLAP−based exploratory data analysis− 효과적인 데이터 마이닝을 위해서는 탐색 적 데이터 분석이 필요합니다. OLAM은 다양한 데이터 하위 집합 및 다양한 추상화 수준에서 데이터 마이닝 기능을 제공합니다.

  • Online selection of data mining functions − OLAP를 여러 데이터 마이닝 기능 및 온라인 분석 마이닝과 통합하면 사용자에게 원하는 데이터 마이닝 기능을 선택하고 데이터 마이닝 작업을 동적으로 스왑 할 수있는 유연성을 제공합니다.