데이터 마이닝-퀵 가이드

정보 산업에는 엄청난 양의 데이터가 있습니다. 이 데이터는 유용한 정보로 변환 될 때까지 소용이 없습니다. 이 방대한 양의 데이터를 분석하고 유용한 정보를 추출하는 것이 필요합니다.

정보 추출은 우리가 수행해야하는 유일한 프로세스가 아닙니다. 데이터 마이닝에는 데이터 정리, 데이터 통합, 데이터 변환, 데이터 마이닝, 패턴 평가 및 데이터 표시와 같은 다른 프로세스도 포함됩니다. 이러한 모든 프로세스가 끝나면 사기 탐지, 시장 분석, 생산 관리, 과학 탐색 등과 같은 많은 응용 프로그램에서이 정보를 사용할 수 있습니다.

데이터 마이닝이란?

데이터 마이닝은 방대한 데이터 세트에서 정보를 추출하는 것으로 정의됩니다. 즉, 데이터 마이닝은 데이터에서 지식을 마이닝하는 절차라고 말할 수 있습니다. 추출 된 정보 또는 지식은 다음 응용 프로그램에 사용할 수 있습니다.

  • 시장 분석
  • 사기 감지
  • 고객 유지
  • 생산 관리
  • 과학 탐험

데이터 마이닝 애플리케이션

데이터 마이닝은 다음 영역에서 매우 유용합니다.

  • 시장 분석 및 관리
  • 기업 분석 및 위험 관리
  • 사기 감지

이 외에도 데이터 마이닝은 생산 관리, 고객 유지, 과학 탐사, 스포츠, 점성술 및 인터넷 웹 서핑 지원 영역에서도 사용할 수 있습니다.

시장 분석 및 관리

다음은 데이터 마이닝이 사용되는 다양한 시장 분야입니다.

  • Customer Profiling − 데이터 마이닝은 어떤 사람들이 어떤 종류의 제품을 구매하는지 결정하는 데 도움이됩니다.

  • Identifying Customer Requirements− 데이터 마이닝은 다양한 고객에게 가장 적합한 제품을 식별하는 데 도움이됩니다. 예측을 사용하여 신규 고객을 유치 할 수있는 요인을 찾습니다.

  • Cross Market Analysis − 데이터 마이닝은 제품 판매 간의 연결 / 상관을 수행합니다.

  • Target Marketing − 데이터 마이닝은 관심사, 소비 습관, 수입 등과 같은 동일한 특성을 공유하는 모델 고객 클러스터를 찾는 데 도움이됩니다.

  • Determining Customer purchasing pattern − 데이터 마이닝은 고객 구매 패턴을 결정하는 데 도움이됩니다.

  • Providing Summary Information − 데이터 마이닝은 다양한 다차원 요약 보고서를 제공합니다.

기업 분석 및 위험 관리

데이터 마이닝은 기업 부문의 다음 분야에서 사용됩니다-

  • Finance Planning and Asset Evaluation − 현금 흐름 분석 및 예측, 자산 평가를위한 우발 클레임 분석이 포함됩니다.

  • Resource Planning − 자원과 지출을 요약하고 비교하는 것이 포함됩니다.

  • Competition − 경쟁사 및 시장 방향 모니터링이 포함됩니다.

사기 감지

데이터 마이닝은 신용 카드 서비스 및 통신 분야에서도 사기를 감지하는 데 사용됩니다. 사기 전화의 경우 전화의 목적지, 통화 시간, 하루 또는주의 시간 등을 찾는 데 도움이됩니다. 또한 예상 표준에서 벗어난 패턴을 분석합니다.

데이터 마이닝은 마이닝 할 수있는 패턴의 종류를 다룹니다. 마이닝 할 데이터의 종류에 따라 데이터 마이닝과 관련된 두 가지 범주의 기능이 있습니다.

  • Descriptive
  • 분류 및 예측

설명 기능

설명 함수는 데이터베이스에있는 데이터의 일반 속성을 다룹니다. 설명 함수 목록은 다음과 같습니다.

  • 클래스 / 개념 설명
  • 빈번한 패턴 채굴
  • 협회 채굴
  • 상관 관계 채굴
  • 클러스터 채굴

클래스 / 개념 설명

클래스 / 개념은 클래스 또는 개념과 연관된 데이터를 나타냅니다. 예를 들어, 회사에서 판매 항목의 클래스에는 컴퓨터와 프린터가 포함되고 고객 개념에는 큰 지출과 예산 지출이 포함됩니다. 이러한 클래스 또는 개념에 대한 설명을 클래스 / 개념 설명이라고합니다. 이러한 설명은 다음 두 가지 방법으로 파생 될 수 있습니다.

  • Data Characterization− 학습중인 수업의 데이터를 요약 한 것입니다. 이 수업을 대상 클래스라고합니다.

  • Data Discrimination − 사전 정의 된 그룹 또는 클래스가있는 클래스의 매핑 또는 분류를 나타냅니다.

빈번한 패턴 채굴

빈번한 패턴은 트랜잭션 데이터에서 자주 발생하는 패턴입니다. 다음은 자주 발생하는 패턴의 목록입니다.

  • Frequent Item Set − 우유와 빵과 같이 자주 함께 나타나는 일련의 항목을 의미합니다.

  • Frequent Subsequence − 카메라 구매와 같이 자주 발생하는 일련의 패턴 뒤에 메모리 카드가 있습니다.

  • Frequent Sub Structure − 하위 구조는 항목 세트 또는 하위 시퀀스와 결합 될 수있는 그래프, 나무 또는 격자와 같은 다양한 구조적 형태를 나타냅니다.

협회 채굴

연관은 소매 판매에서 자주 함께 구매되는 패턴을 식별하는 데 사용됩니다. 이 프로세스는 데이터 간의 관계를 밝히고 연관 규칙을 결정하는 프로세스를 말합니다.

예를 들어, 한 소매 업체는 우유가 빵과 함께 판매되는 시간의 70 %와 빵과 함께 판매되는 경우 비스킷이 30 % 만 판매된다는 연관 규칙을 생성합니다.

상관 관계 채굴

관련 속성 값 쌍 사이 또는 두 항목 세트 사이의 흥미로운 통계적 상관 관계를 발견하기 위해 수행되는 일종의 추가 분석으로 이들이 서로 긍정적, 부정적 또는 전혀 영향을 미치지 않는지 분석합니다.

클러스터 채굴

클러스터는 유사한 종류의 개체 그룹을 나타냅니다. 군집 분석은 서로 매우 유사하지만 다른 군집의 객체와는 매우 다른 객체 그룹을 형성하는 것을 말합니다.

분류 및 예측

분류는 데이터 클래스 또는 개념을 설명하는 모델을 찾는 프로세스입니다. 목적은이 모델을 사용하여 클래스 레이블을 알 수없는 개체의 클래스를 예측할 수 있도록하는 것입니다. 이 파생 모델은 훈련 데이터 세트의 분석을 기반으로합니다. 파생 된 모델은 다음과 같은 형식으로 표시 될 수 있습니다.

  • 분류 (IF-THEN) 규칙
  • 의사 결정 트리
  • 수학 공식
  • 신경망

이 프로세스에 관련된 기능 목록은 다음과 같습니다-

  • Classification− 클래스 레이블을 알 수없는 객체의 클래스를 예측합니다. 그 목적은 데이터 클래스 또는 개념을 설명하고 구별하는 파생 모델을 찾는 것입니다. 파생 모델은 훈련 데이터의 분석 세트, 즉 클래스 레이블이 잘 알려진 데이터 객체를 기반으로합니다.

  • Prediction− 클래스 레이블이 아닌 누락되거나 사용할 수없는 숫자 데이터 값을 예측하는 데 사용됩니다. 회귀 분석은 일반적으로 예측에 사용됩니다. 예측은 사용 가능한 데이터를 기반으로 분포 추세를 식별하는데도 사용할 수 있습니다.

  • Outlier Analysis − 특이 치는 이용 가능한 데이터의 일반적인 행동이나 모델을 따르지 않는 데이터 객체로 정의 될 수 있습니다.

  • Evolution Analysis − 진화 분석은 시간이 지남에 따라 행동이 변하는 객체에 대한 설명 및 모델 규칙 성 또는 추세를 나타냅니다.

데이터 마이닝 작업 프리미티브

  • 데이터 마이닝 쿼리의 형태로 데이터 마이닝 작업을 지정할 수 있습니다.
  • 이 쿼리는 시스템에 입력됩니다.
  • 데이터 마이닝 쿼리는 데이터 마이닝 작업 기본 형식으로 정의됩니다.

Note− 이러한 프리미티브를 사용하면 데이터 마이닝 시스템과 대화 형 방식으로 통신 할 수 있습니다. 다음은 데이터 마이닝 작업 프리미티브 목록입니다.

  • 마이닝 할 작업 관련 데이터 세트입니다.
  • 채굴 할 지식의 종류.
  • 발견 프로세스에 사용될 배경 지식.
  • 패턴 평가를위한 흥미도 측정 및 임계 값.
  • 발견 된 패턴을 시각화하기위한 표현입니다.

채굴 할 작업 관련 데이터 세트

이것은 사용자가 관심있는 데이터베이스 부분입니다. 이 부분에는 다음이 포함됩니다.

  • 데이터베이스 속성
  • 관심있는 데이터웨어 하우스 차원

채굴 할 지식의 종류

수행 할 기능의 종류를 나타냅니다. 이 기능은-

  • Characterization
  • Discrimination
  • 연관성 및 상관 관계 분석
  • Classification
  • Prediction
  • Clustering
  • 특이 치 분석
  • 진화 분석

배경 지식

배경 지식을 통해 여러 수준의 추상화에서 데이터를 마이닝 할 수 있습니다. 예를 들어, 개념 계층은 여러 추상화 수준에서 데이터를 마이닝 할 수있는 배경 지식 중 하나입니다.

패턴 평가를위한 흥미도 측정 및 임계 값

이것은 지식 발견 과정에서 발견 된 패턴을 평가하는 데 사용됩니다. 다양한 종류의 지식에 대해 다양한 흥미로운 측정이 있습니다.

발견 된 패턴을 시각화하기위한 표현

발견 된 패턴이 표시되는 형식을 나타냅니다. 이러한 표현에는 다음이 포함될 수 있습니다. −

  • Rules
  • Tables
  • Charts
  • Graphs
  • 의사 결정 트리
  • Cubes

사용되는 알고리즘이 매우 복잡해질 수 있고 데이터를 항상 한 곳에서 사용할 수있는 것은 아니기 때문에 데이터 마이닝은 쉬운 작업이 아닙니다. 다양한 이기종 데이터 소스에서 통합되어야합니다. 이러한 요인으로 인해 몇 가지 문제가 발생합니다. 이 튜토리얼에서는 다음과 관련된 주요 문제에 대해 논의합니다.

  • 채굴 방법론 및 사용자 상호 작용
  • 성능 문제
  • 다양한 데이터 유형 문제

다음 다이어그램은 주요 문제를 설명합니다.

채굴 방법론 및 사용자 상호 작용 문제

다음과 같은 종류의 문제를 나타냅니다.

  • Mining different kinds of knowledge in databases− 사용자마다 다른 지식에 관심이있을 수 있습니다. 따라서 데이터 마이닝은 광범위한 지식 발견 작업을 포괄해야합니다.

  • Interactive mining of knowledge at multiple levels of abstraction − 데이터 마이닝 프로세스는 사용자가 패턴 검색에 집중하고 반환 된 결과를 기반으로 데이터 마이닝 요청을 제공하고 구체화 할 수 있도록 상호 작용해야합니다.

  • Incorporation of background knowledge− 발견 과정을 안내하고 발견 된 패턴을 표현하기 위해 배경 지식을 활용할 수 있습니다. 배경 지식은 간결한 용어뿐만 아니라 여러 수준의 추상화로 발견 된 패턴을 표현하는 데 사용될 수 있습니다.

  • Data mining query languages and ad hoc data mining − 사용자가 임시 마이닝 작업을 설명 할 수있는 데이터 마이닝 쿼리 언어는 데이터웨어 하우스 쿼리 언어와 통합되어야하며 효율적이고 유연한 데이터 마이닝을 위해 최적화되어야합니다.

  • Presentation and visualization of data mining results− 패턴이 발견되면 높은 수준의 언어와 시각적 표현으로 표현되어야합니다. 이러한 표현은 쉽게 이해할 수 있어야합니다.

  • Handling noisy or incomplete data− 데이터 규칙 성을 마이닝하는 동안 노이즈와 불완전한 개체를 처리하려면 데이터 정리 방법이 필요합니다. 데이터 정리 방법이 없으면 발견 된 패턴의 정확도가 떨어집니다.

  • Pattern evaluation − 발견 된 패턴은 상식을 나타내거나 참신함이 부족하기 때문에 흥미로워 야합니다.

성능 문제

다음과 같은 성능 관련 문제가있을 수 있습니다.

  • Efficiency and scalability of data mining algorithms − 데이터베이스에있는 방대한 양의 데이터에서 정보를 효과적으로 추출하려면 데이터 마이닝 알고리즘이 효율적이고 확장 가능해야합니다.

  • Parallel, distributed, and incremental mining algorithms− 거대한 데이터베이스 크기, 광범위한 데이터 분포, 데이터 마이닝 방법의 복잡성과 같은 요인은 병렬 및 분산 데이터 마이닝 알고리즘의 개발에 동기를 부여합니다. 이러한 알고리즘은 데이터를 병렬 방식으로 추가 처리되는 파티션으로 나눕니다. 그런 다음 파티션의 결과가 병합됩니다. 증분 알고리즘은 데이터를 처음부터 다시 채굴하지 않고 데이터베이스를 업데이트합니다.

다양한 데이터 유형 문제

  • Handling of relational and complex types of data − 데이터베이스는 복잡한 데이터 객체, 멀티미디어 데이터 객체, 공간 데이터, 시간 데이터 등을 포함 할 수 있습니다. 한 시스템이 이러한 모든 종류의 데이터를 마이닝하는 것은 불가능합니다.

  • Mining information from heterogeneous databases and global information systems− 데이터는 LAN 또는 WAN의 다른 데이터 소스에서 사용할 수 있습니다. 이러한 데이터 소스는 구조적, 반 구조적 또는 비 구조적 일 수 있습니다. 따라서 그들로부터 지식을 마이닝하면 데이터 마이닝에 어려움이 추가됩니다.

데이터웨어 하우스

데이터웨어 하우스는 경영진의 의사 결정 프로세스를 지원하기 위해 다음과 같은 특성을 나타냅니다.

  • Subject Oriented− 데이터웨어 하우스는 조직의 지속적인 운영이 아닌 주제에 대한 정보를 제공하기 때문에 주제 지향적입니다. 이러한 주제는 제품, 고객, 공급 업체, 판매, 매출 등이 될 수 있습니다. 데이터웨어 하우스는 진행중인 운영에 초점을 맞추지 않고 의사 결정을위한 데이터 모델링 및 분석에 초점을 맞 춥니 다.

  • Integrated − 데이터웨어 하우스는 관계형 데이터베이스, 플랫 파일 등과 같은 이기종 소스의 데이터를 통합하여 구성됩니다.이 통합은 데이터의 효과적인 분석을 향상시킵니다.

  • Time Variant− 데이터웨어 하우스에서 수집 된 데이터는 특정 기간으로 식별됩니다. 데이터웨어 하우스의 데이터는 기록 관점에서 정보를 제공합니다.

  • Non-volatile− 비 휘발성은 새 데이터가 추가 될 때 이전 데이터가 제거되지 않음을 의미합니다. 데이터웨어 하우스는 운영 데이터베이스와 별도로 유지되므로 운영 데이터베이스의 빈번한 변경은 데이터웨어 하우스에 반영되지 않습니다.

데이터웨어 하우징

데이터웨어 하우징은 데이터웨어 하우스를 구성하고 사용하는 프로세스입니다. 데이터웨어 하우스는 여러 이기종 소스의 데이터를 통합하여 구성됩니다. 분석보고, 구조적 및 / 또는 임시 쿼리 및 의사 결정을 지원합니다.

데이터웨어 하우징에는 데이터 정리, 데이터 통합 ​​및 데이터 통합이 포함됩니다. 이기종 데이터베이스를 통합하기 위해 다음 두 가지 접근 방식이 있습니다.

  • 쿼리 기반 접근 방식
  • 기반 접근 방식 업데이트

쿼리 기반 접근 방식

이것은 이기종 데이터베이스를 통합하는 전통적인 접근 방식입니다. 이 접근 방식은 여러 이기종 데이터베이스 위에 래퍼 및 통합자를 구축하는 데 사용됩니다. 이러한 통합자는 중개자라고도합니다.

쿼리 기반 접근 프로세스

  • 쿼리가 클라이언트 측에 발행되면 메타 데이터 사전이 쿼리를 관련된 개별 이기종 사이트에 적합한 쿼리로 변환합니다.

  • 이제 이러한 쿼리가 매핑되어 로컬 쿼리 프로세서로 전송됩니다.

  • 이기종 사이트의 결과는 글로벌 응답 세트에 통합됩니다.

단점

이 접근 방식에는 다음과 같은 단점이 있습니다.

  • 쿼리 기반 접근 방식에는 복잡한 통합 및 필터링 프로세스가 필요합니다.

  • 빈번한 쿼리에는 매우 비효율적이며 비용이 많이 듭니다.

  • 이 방법은 집계가 필요한 쿼리에 비용이 많이 듭니다.

업데이트 기반 접근 방식

오늘날의 데이터웨어 하우스 시스템은 앞에서 설명한 기존 접근 방식이 아닌 업데이트 중심 접근 방식을 따릅니다. 업데이트 기반 접근 방식에서는 여러 이기종 소스의 정보가 사전에 통합되어웨어 하우스에 저장됩니다. 이 정보는 직접 쿼리 및 분석에 사용할 수 있습니다.

장점

이 접근 방식에는 다음과 같은 장점이 있습니다.

  • 이 접근 방식은 고성능을 제공합니다.

  • 사전에 의미 론적 데이터 저장소에서 데이터를 복사, 처리, 통합, 주석 달기, 요약 및 재구성 할 수 있습니다.

쿼리 처리에는 로컬 소스에서의 처리와의 인터페이스가 필요하지 않습니다.

데이터웨어 하우징 (OLAP)에서 데이터 마이닝 (OLAM)으로

온라인 분석 마이닝은 다차원 데이터베이스의 데이터 마이닝 및 마이닝 지식과 함께 온라인 분석 처리와 통합됩니다. 다음은 OLAP과 OLAM의 통합을 보여주는 다이어그램입니다.

OLAM의 중요성

OLAM은 다음과 같은 이유로 중요합니다.

  • High quality of data in data warehouses− 데이터 마이닝 도구는 통합되고 일관되고 정리 된 데이터에 대해 작업하는 데 필요합니다. 이러한 단계는 데이터 전처리에 많은 비용이 듭니다. 이러한 사전 처리로 구성된 데이터웨어 하우스는 OLAP 및 데이터 마이닝을위한 고품질 데이터의 귀중한 소스입니다.

  • Available information processing infrastructure surrounding data warehouses − 정보 처리 인프라는 여러 이기종 데이터베이스, 웹 액세스 및 서비스 시설,보고 및 OLAP 분석 도구의 액세스, 통합, 통합 및 변환을 의미합니다.

  • OLAP−based exploratory data analysis− 효과적인 데이터 마이닝을 위해서는 탐색 적 데이터 분석이 필요합니다. OLAM은 다양한 데이터 하위 집합과 다양한 추상화 수준에서 데이터 마이닝을위한 기능을 제공합니다.

  • Online selection of data mining functions − OLAP를 여러 데이터 마이닝 기능 및 온라인 분석 마이닝과 통합하면 사용자에게 원하는 데이터 마이닝 기능을 선택하고 데이터 마이닝 작업을 동적으로 스왑 할 수있는 유연성을 제공합니다.

데이터 수집

데이터 마이닝은 방대한 데이터 집합에서 정보를 추출하는 것으로 정의됩니다. 즉, 데이터 마이닝은 데이터에서 지식을 마이닝한다고 말할 수 있습니다. 이 정보는 다음 응용 프로그램에 사용할 수 있습니다.

  • 시장 분석
  • 사기 감지
  • 고객 유지
  • 생산 관리
  • 과학 탐험

데이터 마이닝 엔진

데이터 마이닝 엔진은 데이터 마이닝 시스템에 매우 중요합니다. 다음 기능을 수행하는 기능 모듈 세트로 구성됩니다.

  • Characterization
  • 연관성 및 상관 관계 분석
  • Classification
  • Prediction
  • 클러스터 분석
  • 이상치 분석
  • 진화 분석

지식베이스

이것이 도메인 지식입니다. 이 지식은 검색을 안내하거나 결과 패턴의 흥미를 평가하는 데 사용됩니다.

지식 발견

어떤 사람들은 데이터 마이닝을 지식 발견과 동일하게 취급하는 반면 다른 사람들은 데이터 마이닝을 지식 발견 프로세스의 필수 단계로 간주합니다. 다음은 지식 발견 프로세스에 관련된 단계 목록입니다.

  • 데이터 정리
  • 데이터 통합
  • 데이터 선택
  • 데이터 변환
  • 데이터 수집
  • 패턴 평가
  • 지식 프레젠테이션

사용자 인터페이스

사용자 인터페이스는 사용자와 데이터 마이닝 시스템 간의 통신을 돕는 데이터 마이닝 시스템의 모듈입니다. 사용자 인터페이스는 다음 기능을 허용합니다-

  • 데이터 마이닝 쿼리 작업을 지정하여 시스템과 상호 작용합니다.
  • 검색에 집중하는 데 도움이되는 정보를 제공합니다.
  • 중간 데이터 마이닝 결과를 기반으로하는 마이닝.
  • 데이터베이스 및 데이터웨어 하우스 스키마 또는 데이터 구조를 찾아보십시오.
  • 채굴 된 패턴을 평가합니다.
  • 다양한 형태로 패턴을 시각화합니다.

데이터 통합

데이터 통합은 여러 이기종 데이터 소스의 데이터를 일관된 데이터 저장소로 병합하는 데이터 사전 처리 기술입니다. 데이터 통합에는 일관성없는 데이터가 포함될 수 있으므로 데이터 정리가 필요합니다.

데이터 정리

데이터 정리는 시끄러운 데이터를 제거하고 데이터의 불일치를 수정하는 데 적용되는 기술입니다. 데이터 정리에는 잘못된 데이터를 수정하기위한 변환이 포함됩니다. 데이터 정리는 데이터웨어 하우스 용 데이터를 준비하는 동안 데이터 전처리 단계로 수행됩니다.

데이터 선택

데이터 선택은 데이터베이스에서 분석 작업과 관련된 데이터를 검색하는 프로세스입니다. 때로는 데이터 선택 프로세스 전에 데이터 변환 및 통합이 수행됩니다.

클러스터

클러스터는 유사한 종류의 개체 그룹을 나타냅니다. 군집 분석은 서로 매우 유사하지만 다른 군집의 객체와는 매우 다른 객체 그룹을 형성하는 것을 말합니다.

데이터 변환

이 단계에서는 요약 또는 집계 작업을 수행하여 데이터를 마이닝에 적합한 형식으로 변환하거나 통합합니다.

지식 발견이란 무엇입니까?

어떤 사람들은 데이터 마이닝과 지식 발견을 구별하지 않는 반면 다른 사람들은 데이터 마이닝을 지식 발견 프로세스의 필수 단계로 간주합니다. 다음은 지식 발견 프로세스에 관련된 단계 목록입니다.

  • Data Cleaning −이 단계에서는 노이즈와 일관성없는 데이터가 제거됩니다.

  • Data Integration −이 단계에서는 여러 데이터 소스가 결합됩니다.

  • Data Selection −이 단계에서는 데이터베이스에서 분석 작업과 관련된 데이터를 검색합니다.

  • Data Transformation −이 단계에서 데이터는 요약 또는 집계 작업을 수행하여 마이닝에 적합한 형태로 변환 또는 통합됩니다.

  • Data Mining −이 단계에서는 데이터 패턴을 추출하기 위해 지능적인 방법을 적용합니다.

  • Pattern Evaluation −이 단계에서는 데이터 패턴이 평가됩니다.

  • Knowledge Presentation −이 단계에서는 지식이 표시됩니다.

다음 다이어그램은 지식 발견의 과정을 보여줍니다-

다양한 데이터 마이닝 시스템을 사용할 수 있습니다. 데이터 마이닝 시스템은 다음 기술을 통합 할 수 있습니다.

  • 공간 데이터 분석
  • 정보 검색
  • 패턴 인식
  • 이미지 분석
  • 신호 처리
  • 컴퓨터 그래픽
  • 웹 기술
  • Business
  • Bioinformatics

데이터 마이닝 시스템 분류

데이터 마이닝 시스템은 다음 기준에 따라 분류 할 수 있습니다.

  • 데이터베이스 기술
  • Statistics
  • 기계 학습
  • 정보 과학
  • Visualization
  • 기타 분야

이 외에도 데이터 마이닝 시스템은 (a) 마이닝 된 데이터베이스, (b) 지식 마이닝, (c) 활용 된 기술 및 (d) 적응 된 응용 프로그램의 종류에 따라 분류 될 수도 있습니다.

채굴 된 데이터베이스를 기반으로 한 분류

마이닝되는 데이터베이스의 종류에 따라 데이터 마이닝 시스템을 분류 할 수 있습니다. 데이터베이스 시스템은 데이터 모델, 데이터 유형 등 다양한 기준에 따라 분류 할 수 있으며 그에 따라 데이터 마이닝 시스템을 분류 할 수 있습니다.

예를 들어 데이터 모델에 따라 데이터베이스를 분류하면 관계형, 트랜잭션 형, 객체 관계형 또는 데이터웨어 하우스 마이닝 시스템이있을 수 있습니다.

채굴 된 지식의 종류에 따른 분류

채굴되는 지식의 종류에 따라 데이터 마이닝 시스템을 분류 할 수 있습니다. 이는 데이터 마이닝 시스템이 다음과 같은 기능을 기준으로 분류됨을 의미합니다.

  • Characterization
  • Discrimination
  • 연관성 및 상관 관계 분석
  • Classification
  • Prediction
  • 특이 치 분석
  • 진화 분석

활용 된 기법에 따른 분류

사용되는 기술의 종류에 따라 데이터 마이닝 시스템을 분류 할 수 있습니다. 관련된 사용자 상호 작용의 정도 또는 사용 된 분석 방법에 따라 이러한 기술을 설명 할 수 있습니다.

응용 프로그램에 따른 분류

적용되는 애플리케이션에 따라 데이터 마이닝 시스템을 분류 할 수 있습니다. 이러한 응용 프로그램은 다음과 같습니다-

  • Finance
  • Telecommunications
  • DNA
  • 주식 시장
  • E-mail

데이터 마이닝 시스템과 DB / DW 시스템 통합

데이터 마이닝 시스템이 데이터베이스 또는 데이터웨어 하우스 시스템과 통합되지 않으면 통신 할 시스템이 없습니다. 이 방식을 비 커플 링 방식이라고합니다. 이 체계에서 주요 초점은 데이터 마이닝 설계와 사용 가능한 데이터 세트를 마이닝하기위한 효율적이고 효과적인 알고리즘 개발에 있습니다.

통합 계획 목록은 다음과 같습니다-

  • No Coupling−이 방식에서 데이터 마이닝 시스템은 데이터베이스 또는 데이터웨어 하우스 기능을 사용하지 않습니다. 특정 소스에서 데이터를 가져오고 일부 데이터 마이닝 알고리즘을 사용하여 해당 데이터를 처리합니다. 데이터 마이닝 결과는 다른 파일에 저장됩니다.

  • Loose Coupling−이 방식에서 데이터 마이닝 시스템은 데이터베이스 및 데이터웨어 하우스 시스템의 일부 기능을 사용할 수 있습니다. 이러한 시스템에서 관리하는 데이터 호흡기에서 데이터를 가져와 해당 데이터에 대한 데이터 마이닝을 수행합니다. 그런 다음 마이닝 결과를 파일이나 데이터베이스 또는 데이터웨어 하우스의 지정된 위치에 저장합니다.

  • Semi−tight Coupling −이 방식에서 데이터 마이닝 시스템은 데이터베이스 또는 데이터웨어 하우스 시스템과 연결되어 있으며, 그 외에도 몇 가지 데이터 마이닝 프리미티브의 효율적인 구현이 데이터베이스에 제공 될 수 있습니다.

  • Tight coupling−이 결합 방식에서 데이터 마이닝 시스템은 데이터베이스 또는 데이터웨어 하우스 시스템에 원활하게 통합됩니다. 데이터 마이닝 하위 시스템은 정보 시스템의 하나의 기능 구성 요소로 취급됩니다.

DMQL (Data Mining Query Language)은 Han, Fu, Wang 등이 제안했습니다. DBMiner 데이터 마이닝 시스템을 위해. 데이터 마이닝 쿼리 언어는 실제로 SQL (구조적 쿼리 언어)을 기반으로합니다. 데이터 마이닝 쿼리 언어는 임시 및 대화 형 데이터 마이닝을 지원하도록 설계 할 수 있습니다. 이 DMQL은 기본 요소를 지정하기위한 명령을 제공합니다. DMQL은 데이터베이스 및 데이터웨어 하우스에서도 작동 할 수 있습니다. DMQL은 데이터 마이닝 작업을 정의하는 데 사용할 수 있습니다. 특히 DMQL에서 데이터웨어 하우스 및 데이터 마트를 정의하는 방법을 검토합니다.

작업 관련 데이터 사양에 대한 구문

다음은 작업 관련 데이터를 지정하기위한 DMQL 구문입니다.

use database database_name

or 

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

지식의 종류를 지정하기위한 구문

여기서 우리는 특성화, 차별, 연관, 분류 및 예측에 대한 구문에 대해 설명합니다.

성격 묘사

특성화 구문은 다음과 같습니다.

mine characteristics [as pattern_name]
   analyze  {measure(s) }

analyze 절은 개수, 합계 또는 개수 %와 같은 집계 측정 값을 지정합니다.

예를 들면-

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

차별

차별의 구문은 다음과 같습니다.

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition } 
{versus  {contrast_class_i }
where {contrast_condition_i}}  
analyze  {measure(s) }

예를 들어, 사용자는 비용이 많이 드는 품목을 구매하는 고객으로 큰 지출을 정의 할 수 있습니다 $100 or more on an average; and budget spenders as customers who purchase items at less than $평균 100 명. 이러한 각 범주의 고객에 대한 식별 설명의 마이닝은 DMQL에서 다음과 같이 지정할 수 있습니다.

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100 versus budgetSpenders where avg(I.price)< $100
analyze count

협회

Association의 구문은 다음과 같습니다.

mine associations [ as {pattern_name} ]
{matching {metapattern} }

예를 들어-

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

여기서 X는 고객 관계의 핵심입니다. P와 Q는 술어 변수입니다. W, Y, Z는 객체 변수입니다.

분류

분류의 구문은 다음과 같습니다.

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

예를 들어, 패턴을 마이닝하려면 credit_rating 속성에 의해 클래스가 결정되는 고객 신용 등급을 분류하고, 마이닝 분류는 classifyCustomerCreditRating으로 결정됩니다.

analyze credit_rating

예측

예측 구문은 다음과 같습니다.

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

개념 계층 사양 구문

개념 계층을 지정하려면 다음 구문을 사용하십시오.

use hierarchy <hierarchy> for <attribute_or_dimension>

우리는 다음과 같은 다른 유형의 계층을 정의하기 위해 다른 구문을 사용합니다.

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)} 
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50)  and ((price - cost) ≤ $250)) 
   level_1:  high_profit_margin < level_0:  all

흥미도 측정 사양 구문

흥미도 측정 및 임계 값은 다음과 같이 사용자가 지정할 수 있습니다.

with <interest_measure_name>  threshold = threshold_value

예를 들어-

with support threshold = 0.05
with confidence threshold = 0.7

패턴 표현 및 시각화 사양 구문

사용자가 발견 된 패턴의 표시를 하나 이상의 형식으로 지정할 수있는 구문이 있습니다.

display as <result_form>

예를 들어-

display as table

DMQL의 전체 사양

회사의 시장 관리자는 $ 100 이상으로 가격이 책정 된 품목을 구입할 수있는 고객의 구매 습관을 특성화하려고합니다. 고객의 연령, 구매 항목 유형 및 항목을 구매 한 장소와 관련하여 그 특성을 가진 고객의 비율을 알고 싶습니다. 특히 캐나다에서 이루어진 구매에만 관심이 있고 American Express 신용 카드로 결제했습니다. 결과 설명을 표 형식으로보고 싶습니다.

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

데이터 마이닝 언어 표준화

데이터 마이닝 언어의 표준화는 다음과 같은 목적을 제공합니다.

  • 데이터 마이닝 솔루션의 체계적인 개발을 지원합니다.

  • 여러 데이터 마이닝 시스템 및 기능 간의 상호 운용성을 향상시킵니다.

  • 교육과 빠른 학습을 촉진합니다.

  • 산업 및 사회에서 데이터 마이닝 시스템 사용을 장려합니다.

중요한 클래스를 설명하는 모델을 추출하거나 미래 데이터 추세를 예측하는 데 사용할 수있는 두 가지 형태의 데이터 분석이 있습니다. 이 두 가지 형태는 다음과 같습니다-

  • Classification
  • Prediction

분류 모델은 범주 형 클래스 레이블을 예측합니다. 그리고 예측 모델은 연속 가치 함수를 예측합니다. 예를 들어, 은행 대출 신청을 안전하거나 위험한 것으로 분류하는 분류 모델을 구축하거나 수입과 직업을 고려할 때 컴퓨터 장비에 대한 잠재 고객의 지출을 달러로 예측하는 예측 모델을 구축 할 수 있습니다.

분류 란 무엇입니까?

다음은 데이터 분석 작업이 분류 인 경우의 예입니다.

  • 은행 대출 담당자는 어떤 고객 (대출 신청자)이 위험하거나 안전한지 파악하기 위해 데이터를 분석하려고합니다.

  • 회사의 마케팅 관리자는 새 컴퓨터를 구매할 주어진 프로필로 고객을 분석해야합니다.

위의 두 예에서 모델 또는 분류기는 범주 레이블을 예측하도록 구성됩니다. 이러한 레이블은 대출 신청 데이터에 대해 위험하거나 안전하며 마케팅 데이터에 대해서는 예 또는 아니오입니다.

예측이란 무엇입니까?

다음은 데이터 분석 작업이 예측 인 경우의 예입니다.

마케팅 관리자가 특정 고객이 회사에서 판매하는 동안 지출 할 금액을 예측해야한다고 가정합니다. 이 예에서 우리는 숫자 값을 예측해야합니다. 따라서 데이터 분석 작업은 수치 예측의 예입니다. 이 경우 연속 값 함수 또는 정렬 된 값을 예측하는 모델 또는 예측 변수가 구성됩니다.

Note − 회귀 분석은 숫자 예측에 가장 자주 사용되는 통계적 방법론입니다.

분류는 어떻게 작동합니까?

위에서 논의한 은행 대출 신청을 통해 분류 작업을 이해하겠습니다. 데이터 분류 프로세스에는 두 단계가 포함됩니다.

  • 분류기 또는 모델 구축
  • 분류에 분류 자 ​​사용

분류기 또는 모델 구축

  • 이 단계는 학습 단계 또는 학습 단계입니다.

  • 이 단계에서 분류 알고리즘은 분류기를 작성합니다.

  • 분류기는 데이터베이스 튜플 및 관련 클래스 레이블로 구성된 학습 세트에서 빌드됩니다.

  • 훈련 세트를 구성하는 각 튜플을 카테고리 또는 클래스라고합니다. 이러한 튜플은 샘플, 객체 또는 데이터 포인트라고도합니다.

분류에 분류 자 ​​사용

이 단계에서는 분류자가 분류에 사용됩니다. 여기서 테스트 데이터는 분류 규칙의 정확성을 추정하는 데 사용됩니다. 정확도가 허용되는 것으로 간주되면 분류 규칙을 새 데이터 튜플에 적용 할 수 있습니다.

분류 및 예측 문제

주요 문제는 분류 및 예측을위한 데이터를 준비하는 것입니다. 데이터 준비에는 다음 활동이 포함됩니다.

  • Data Cleaning− 데이터 정리에는 노이즈 제거 및 결 측값 처리가 포함됩니다. 스무딩 기법을 적용하여 노이즈를 제거하고 결 측값을 해당 속성에 대해 가장 일반적으로 발생하는 값으로 대체하여 결 측값 문제를 해결합니다.

  • Relevance Analysis− 데이터베이스에 관련없는 속성이있을 수도 있습니다. 상관 분석은 주어진 두 속성이 관련되어 있는지 여부를 확인하는 데 사용됩니다.

  • Data Transformation and reduction − 데이터는 다음 방법 중 하나로 변환 할 수 있습니다.

    • Normalization− 데이터는 정규화를 사용하여 변환됩니다. 정규화에는 지정된 속성의 모든 값을 조정하여 지정된 작은 범위에 속하도록합니다. 정규화는 학습 단계에서 신경망 또는 측정과 관련된 방법을 사용할 때 사용됩니다.

    • Generalization− 데이터를 더 높은 개념으로 일반화하여 변환 할 수도 있습니다. 이를 위해 개념 계층을 사용할 수 있습니다.

Note − 웨이블릿 변환, 비닝, 히스토그램 분석 및 클러스터링과 같은 다른 방법으로 데이터를 줄일 수도 있습니다.

분류 및 예측 방법 비교

분류와 예측 방법을 비교하는 기준은 다음과 같습니다.

  • Accuracy− 분류기의 정확도는 분류기의 능력을 나타냅니다. 클래스 레이블을 올바르게 예측하고 예측 자의 정확도는 주어진 예측자가 새 데이터에 대한 예측 된 속성 값을 얼마나 잘 추측 할 수 있는지를 나타냅니다.

  • Speed − 이것은 분류기 또는 예측자를 생성하고 사용하는 데 드는 계산 비용을 나타냅니다.

  • Robustness − 주어진 노이즈 데이터에서 정확한 예측을하는 분류기 또는 예측 자의 능력을 나타냅니다.

  • Scalability− 확장 성은 분류기 또는 예측자를 효율적으로 구성하는 능력을 의미합니다. 많은 양의 데이터가 주어집니다.

  • Interpretability − 분류기 또는 예측자가 이해하는 정도를 나타냅니다.

의사 결정 트리는 루트 노드, 분기 및 리프 노드를 포함하는 구조입니다. 각 내부 노드는 특성에 대한 테스트를 나타내고 각 분기는 테스트 결과를 나타내며 각 리프 노드에는 클래스 레이블이 있습니다. 트리의 최상위 노드는 루트 노드입니다.

다음 의사 결정 트리는 회사의 고객이 컴퓨터를 구입할 가능성이 있는지 여부를 나타내는 buy_computer 개념에 대한 것입니다. 각 내부 노드는 특성에 대한 테스트를 나타냅니다. 각 리프 노드는 클래스를 나타냅니다.

의사 결정 트리를 갖는 이점은 다음과 같습니다.

  • 도메인 지식이 필요하지 않습니다.
  • 이해하기 쉽습니다.
  • 의사 결정 트리의 학습 및 분류 단계는 간단하고 빠릅니다.

의사 결정 트리 유도 알고리즘

1980 년에 J. Ross Quinlan이라는 이름의 기계 연구원이 ID3 (반복 이분법)이라는 의사 결정 트리 알고리즘을 개발했습니다. 나중에 그는 ID3의 후속 제품인 C4.5를 발표했습니다. ID3 및 C4.5는 탐욕스러운 접근 방식을 채택합니다. 이 알고리즘에는 역 추적이 없습니다. 나무는 하향식 반복 분할 및 정복 방식으로 구성됩니다.

Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree

Input:
Data partition, D, which is a set of training tuples 
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data 
tuples into individual classes. This criterion includes a 
splitting_attribute and either a splitting point or splitting subset.

Output:
 A Decision Tree

Method
create a node N;

if tuples in D are all of the same class, C then
   return N as leaf node labeled with class C;
   
if attribute_list is empty then
   return N as leaf node with labeled 
   with majority class in D;|| majority voting
   
apply attribute_selection_method(D, attribute_list) 
to find the best splitting_criterion;
label node N with splitting_criterion;

if splitting_attribute is discrete-valued and
   multiway splits allowed then  // no restricted to binary trees

attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion

   // partition the tuples and grow subtrees for each partition
   let Dj be the set of data tuples in D satisfying outcome j; // a partition
   
   if Dj is empty then
      attach a leaf labeled with the majority 
      class in D to node N;
   else 
      attach the node returned by Generate 
      decision tree(Dj, attribute list) to node N;
   end for
return N;

나무 가지 치기

노이즈 또는 이상 값으로 인한 훈련 데이터의 이상을 제거하기 위해 나무 가지 치기가 수행됩니다. 가지 치기 나무는 더 작고 덜 복잡합니다.

나무 가지 치기 접근법

나무 가지 치기에는 두 가지 방법이 있습니다.

  • Pre-pruning − 나무는 건설을 일찍 중단하여 가지 치기를합니다.

  • Post-pruning -이 접근 방식은 완전히 자란 트리에서 하위 트리를 제거합니다.

비용 복잡성

비용 복잡도는 다음 두 가지 매개 변수로 측정됩니다.

  • 나무의 잎 수
  • 나무의 오류율.

베이지안 분류는 베이지안 정리를 기반으로합니다. 베이지안 분류기는 통계 분류기입니다. 베이지안 분류기는 주어진 튜플이 특정 클래스에 속할 확률과 같은 클래스 구성원 확률을 예측할 수 있습니다.

베이의 정리

Bayes의 정리는 Thomas Bayes의 이름을 따서 명명되었습니다. 두 가지 유형의 확률이 있습니다.

  • 사후 확률 [P (H / X)]
  • 사전 확률 [P (H)]

여기서 X는 데이터 튜플이고 H는 가설입니다.

Bayes의 정리에 따르면,

P (H / X) = P (X / H) P (H) / P (X)

베이지안 신념 네트워크

Bayesian Belief Networks는 결합 조건부 확률 분포를 지정합니다. Belief Networks, Bayesian Networks 또는 Probabilistic Networks라고도합니다.

  • Belief Network를 사용하면 변수의 하위 집합간에 클래스 조건부 독립성을 정의 할 수 있습니다.

  • 학습이 수행 될 수있는 인과 관계의 그래픽 모델을 제공합니다.

  • 훈련 된 베이지안 네트워크를 사용하여 분류 할 수 있습니다.

베이지안 신념 네트워크를 정의하는 두 가지 구성 요소가 있습니다-

  • 방향성 비순환 그래프
  • 조건부 확률 테이블 세트

방향성 비순환 그래프

  • 방향성 비순환 그래프의 각 노드는 랜덤 변수를 나타냅니다.
  • 이러한 변수는 불연속 적이거나 연속적인 값일 수 있습니다.
  • 이러한 변수는 데이터에 제공된 실제 속성에 해당 할 수 있습니다.

방향성 비순환 그래프 표현

다음 다이어그램은 6 개의 부울 변수에 대한 유 방향 비순환 그래프를 보여줍니다.

다이어그램의 호는 인과 적 지식을 표현할 수 있습니다. 예를 들어, 폐암은 환자의 폐암 가족력과 흡연자 여부의 영향을받습니다. 변수 PositiveXray는 환자가 폐암의 가족력이 있는지 또는 환자가 흡연자인지 여부와 무관하다는 점에 주목할 가치가 있습니다.

조건부 확률 표

부모 노드, FamilyHistory (FH) 및 Smoker (S) 값의 가능한 각 조합을 보여주는 변수 LungCancer (LC)의 값에 대한 조건부 확률 테이블은 다음과 같습니다.

IF-THEN 규칙

규칙 기반 분류기는 분류를 위해 IF-THEN 규칙 세트를 사용합니다. 우리는 다음에서 규칙을 표현할 수 있습니다.

IF 조건 THEN 결론

규칙 R1을 고려해 보겠습니다.

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Points to remember −

  • 규칙의 IF 부분이 호출됩니다. rule antecedent 또는 precondition.

  • 규칙의 THEN 부분이 호출됩니다. rule consequent.

  • 조건의 선행 부분은 하나 이상의 속성 테스트로 구성되며 이러한 테스트는 논리적으로 AND 처리됩니다.

  • 결과적인 부분은 클래스 예측으로 구성됩니다.

Note − 다음과 같이 규칙 R1을 작성할 수도 있습니다.

R1: (age = youth) ^ (student = yes))(buys computer = yes)

주어진 튜플에 대해 조건이 참이면 선행이 충족됩니다.

규칙 추출

여기에서는 의사 결정 트리에서 IF-THEN 규칙을 추출하여 규칙 기반 분류기를 구축하는 방법을 배웁니다.

Points to remember −

의사 결정 트리에서 규칙을 추출하려면-

  • 루트에서 리프 노드까지의 각 경로에 대해 하나의 규칙이 생성됩니다.

  • 선행 규칙을 형성하기 위해 각 분할 기준은 논리적으로 AND 처리됩니다.

  • 리프 노드는 클래스 예측을 보유하여 결과적으로 규칙을 형성합니다.

순차 커버링 알고리즘을 사용한 규칙 유도

Sequential Covering Algorithm을 사용하여 훈련 데이터에서 IF-THEN 규칙을 추출 할 수 있습니다. 의사 결정 트리를 먼저 생성 할 필요는 없습니다. 이 알고리즘에서 주어진 클래스의 각 규칙은 해당 클래스의 많은 튜플을 포함합니다.

순차적 커버링 알고리즘 중 일부는 AQ, CN2 및 RIPPER입니다. 일반적인 전략에 따라 규칙은 한 번에 하나씩 학습됩니다. 규칙이 학습 될 때마다 규칙에 포함 된 튜플이 제거되고 나머지 튜플에 대해 프로세스가 계속됩니다. 이는 의사 결정 트리의 각 리프에 대한 경로가 규칙에 해당하기 때문입니다.

Note − 의사 결정 트리 유도는 일련의 규칙을 동시에 학습하는 것으로 간주 할 수 있습니다.

다음은 한 수업에 대해 한 번에 규칙을 학습하는 순차적 학습 알고리즘입니다. 클래스 Ci에서 규칙을 배울 때, 우리는 규칙이 클래스 C의 모든 튜플을 포함하고 다른 클래스를 형성하는 튜플을 포함하지 않기를 원합니다.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

규칙 정리

규칙이 정리되는 이유는 다음과 같습니다.

  • 품질 평가는 원래 훈련 데이터 세트에서 이루어집니다. 이 규칙은 훈련 데이터에서는 잘 수행되지만 후속 데이터에서는 잘 수행되지 않을 수 있습니다. 이것이 규칙 정리가 필요한 이유입니다.

  • 결합을 제거하여 규칙을 정리합니다. R의 프 루닝 된 버전이 독립적 인 튜플 세트에서 평가 된 것보다 품질이 더 높으면 규칙 R이 프 루닝됩니다.

FOIL은 규칙 정리를위한 간단하고 효과적인 방법 중 하나입니다. 주어진 규칙 R에 대해

FOIL_Prune = pos-neg / pos + neg

여기서 pos와 neg는 각각 R에 포함 된 양의 튜플의 수입니다.

Note−이 값은 가지 치기 세트에서 R의 정확도에 따라 증가합니다. 따라서 FOIL_Prune 값이 R의 정리 된 버전에 대해 더 높으면 R을 정리합니다.

여기에서는 유전 알고리즘, 러프 세트 접근법 및 퍼지 세트 접근법과 같은 다른 분류 방법에 대해 설명합니다.

유전 알고리즘

유전 알고리즘의 개념은 자연 진화에서 비롯됩니다. 유전 알고리즘에서는 우선 초기 집단이 생성됩니다. 이 초기 채우기는 무작위로 생성 된 규칙으로 구성됩니다. 각 규칙을 비트 문자열로 나타낼 수 있습니다.

예를 들어, 주어진 훈련 세트에서 샘플은 A1 및 A2와 같은 두 개의 부울 속성으로 설명됩니다. 그리고이 훈련 세트에는 C1과 C2와 같은 두 가지 클래스가 포함되어 있습니다.

규칙을 인코딩 할 수 있습니다. IF A1 AND NOT A2 THEN C2 비트 문자열로 100. 이 비트 표현에서 가장 왼쪽에있는 두 비트는 각각 속성 A1과 A2를 나타냅니다.

마찬가지로 규칙 IF NOT A1 AND NOT A2 THEN C1 다음과 같이 인코딩 할 수 있습니다. 001.

Note− 속성에 K> 2 인 K 값이있는 경우 K 비트를 사용하여 속성 값을 인코딩 할 수 있습니다. 클래스도 동일한 방식으로 인코딩됩니다.

기억해야 할 사항-

  • 적자 생존의 개념을 바탕으로 현재 인구의 적자 규칙과이 규칙의 자손 값으로 구성된 새로운 집단이 형성됩니다.

  • 규칙의 적합성은 일련의 훈련 샘플에 대한 분류 정확도로 평가됩니다.

  • 크로스 오버 및 돌연변이와 같은 유전 연산자를 적용하여 자손을 만듭니다.

  • 크로스 오버에서는 규칙 쌍의 하위 문자열이 교체되어 새로운 규칙 쌍을 형성합니다.

  • 변형에서는 규칙의 문자열에서 임의로 선택된 비트가 반전됩니다.

러프 세트 접근

대략적인 접근 방식을 사용하여 부정확하고 노이즈가 많은 데이터 내에서 구조적 관계를 찾을 수 있습니다.

Note−이 접근 방식은 이산 값 속성에만 적용 할 수 있습니다. 따라서 연속 값 속성은 사용하기 전에 이산화되어야합니다.

Rough Set Theory는 주어진 훈련 데이터 내에서 등가 클래스의 설정을 기반으로합니다. 등가 클래스를 형성하는 튜플은 구별 할 수 없습니다. 이는 샘플이 데이터를 설명하는 속성과 관련하여 동일하다는 것을 의미합니다.

주어진 실제 데이터에는 사용 가능한 속성 측면에서 구별 할 수없는 일부 클래스가 있습니다. 대략적인 세트를 사용하여roughly 그러한 클래스를 정의하십시오.

주어진 클래스 C에 대해 대략적인 세트 정의는 다음과 같이 두 세트로 근사됩니다.

  • Lower Approximation of C − C의 하한 근사는 속성에 대한 지식을 바탕으로 클래스 C에 속할 수있는 모든 데이터 튜플로 구성됩니다.

  • Upper Approximation of C − C의 상위 근사는 속성에 대한 지식을 기반으로 C에 속하지 않는 것으로 설명 할 수없는 모든 튜플로 구성됩니다.

다음 다이어그램은 클래스 C의 상위 및 하위 근사치를 보여줍니다-

퍼지 세트 접근법

퍼지 집합 이론은 가능성 이론이라고도합니다. 이 이론은 1965 년 Lotfi Zadeh에 의해 대안으로 제안되었습니다.two-value logicprobability theory. 이 이론을 통해 우리는 높은 수준의 추상화에서 작업 할 수 있습니다. 또한 부정확 한 데이터 측정을 처리 할 수있는 수단을 제공합니다.

퍼지 집합 이론은 또한 모호하거나 부정확 한 사실을 다룰 수있게합니다. 예를 들어, 일련의 고소득층에 속한다는 것은 정확합니다 (예 :$50,000 is high then what about $49,000 및 $ 48,000). 요소가 S 또는 그 보완 물에 속하지만 퍼지 세트 이론에서는 요소가 둘 이상의 퍼지 세트에 속할 수있는 기존 CRISP 세트와 달리.

예를 들어, 소득 값 $ 49,000은 중간 및 높음 퍼지 세트에 속하지만 정도가 다릅니다. 이 소득 값에 대한 퍼지 집합 표기법은 다음과 같습니다.

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

여기서 'm'은 각각 medium_income 및 high_income의 퍼지 세트에서 작동하는 멤버십 함수입니다. 이 표기법은 다음과 같이 다이어그램으로 표시 할 수 있습니다.

클러스터는 동일한 클래스에 속하는 개체 그룹입니다. 즉, 유사한 개체는 한 클러스터에 그룹화되고 다른 개체는 다른 클러스터에 그룹화됩니다.

클러스터링이란?

클러스터링은 추상 개체 그룹을 유사한 개체의 클래스로 만드는 프로세스입니다.

Points to Remember

  • 데이터 개체의 클러스터는 하나의 그룹으로 취급 될 수 있습니다.

  • 클러스터 분석을 수행하는 동안 먼저 데이터 유사성을 기반으로 데이터 집합을 그룹으로 분할 한 다음 레이블을 그룹에 할당합니다.

  • 분류에 비해 클러스터링의 주요 이점은 변경 사항에 적응할 수 있고 서로 다른 그룹을 구별하는 유용한 기능을 구분하는 데 도움이된다는 것입니다.

클러스터 분석의 응용

  • 클러스터링 분석은 시장 조사, 패턴 인식, 데이터 분석 및 이미지 처리와 같은 많은 응용 프로그램에서 광범위하게 사용됩니다.

  • 클러스터링은 마케팅 담당자가 고객 기반에서 고유 한 그룹을 발견하는데도 도움이됩니다. 그리고 구매 패턴에 따라 고객 그룹을 특성화 할 수 있습니다.

  • 생물학 분야에서는 식물 및 동물 분류법을 도출하고 유사한 기능을 가진 유전자를 분류하고 개체군 고유의 구조에 대한 통찰력을 얻는 데 사용할 수 있습니다.

  • 클러스터링은 또한 지구 관측 데이터베이스에서 유사한 토지 사용 영역을 식별하는 데 도움이됩니다. 또한 주택 유형, 가치 및 지리적 위치에 따라 도시의 주택 그룹을 식별하는 데 도움이됩니다.

  • 클러스터링은 정보 검색을 위해 웹에서 문서를 분류하는데도 도움이됩니다.

  • 클러스터링은 신용 카드 사기 탐지와 같은 이상 값 탐지 응용 프로그램에서도 사용됩니다.

  • 데이터 마이닝 기능인 클러스터 분석은 데이터 분포에 대한 통찰력을 확보하여 각 클러스터의 특성을 관찰하는 도구 역할을합니다.

데이터 마이닝의 클러스터링 요구 사항

다음 사항은 데이터 마이닝에서 클러스터링이 필요한 이유를 설명합니다.

  • Scalability − 대규모 데이터베이스를 처리하려면 확장 성이 뛰어난 클러스터링 알고리즘이 필요합니다.

  • Ability to deal with different kinds of attributes − 알고리즘은 간격 기반 (숫자) 데이터, 범주 형 및 이진 데이터와 같은 모든 종류의 데이터에 적용 할 수 있어야합니다.

  • Discovery of clusters with attribute shape− 클러스터링 알고리즘은 임의의 모양의 클러스터를 감지 할 수 있어야합니다. 작은 크기의 구형 클러스터를 찾는 경향이있는 거리 측정에만 국한되어서는 안됩니다.

  • High dimensionality − 클러스터링 알고리즘은 저 차원 데이터뿐만 아니라 고차원 공간도 처리 할 수 ​​있어야합니다.

  • Ability to deal with noisy data− 데이터베이스에 노이즈가 많거나 누락되거나 오류가있는 데이터가 포함되어 있습니다. 일부 알고리즘은 이러한 데이터에 민감하며 품질이 낮은 클러스터로 이어질 수 있습니다.

  • Interpretability − 클러스터링 결과는 해석 가능하고 이해 가능하며 사용 가능해야합니다.

클러스터링 방법

클러스터링 방법은 다음 범주로 분류 할 수 있습니다-

  • 분할 방법
  • 계층 적 방법
  • 밀도 기반 방법
  • 그리드 기반 방법
  • 모델 기반 방법
  • 제약 기반 방법

분할 방법

'n'개체의 데이터베이스가 주어지고 분할 방법이 데이터의 'k'분할을 구성한다고 가정합니다. 각 파티션은 클러스터를 나타내며 k ≤ n입니다. 이는 데이터를 다음 요구 사항을 충족하는 k 그룹으로 분류한다는 것을 의미합니다.

  • 각 그룹에는 하나 이상의 개체가 포함됩니다.

  • 각 개체는 정확히 하나의 그룹에 속해야합니다.

Points to remember −

  • 주어진 파티션 수 (예 : k)에 대해 파티셔닝 방법은 초기 파티셔닝을 생성합니다.

  • 그런 다음 반복적 재배치 기술을 사용하여 개체를 한 그룹에서 다른 그룹으로 이동하여 분할을 개선합니다.

계층 적 방법

이 메서드는 주어진 데이터 개체 집합의 계층 적 분해를 만듭니다. 계층 적 분해가 어떻게 형성되는지에 따라 계층 적 방법을 분류 할 수 있습니다. 여기에는 두 가지 접근 방식이 있습니다.

  • 응집 적 접근
  • 분열적인 접근

응집 적 접근

이 접근 방식은 상향식 접근 방식이라고도합니다. 여기서는 각 개체가 별도의 그룹을 형성하는 것으로 시작합니다. 서로 가까운 개체 또는 그룹을 계속 병합합니다. 모든 그룹이 하나로 병합되거나 종료 조건이 유지 될 때까지 계속합니다.

분열적인 접근

이 접근 방식은 하향식 접근 방식이라고도합니다. 여기서는 동일한 클러스터에있는 모든 객체로 시작합니다. 연속 반복에서 클러스터는 더 작은 클러스터로 분할됩니다. 한 클러스터의 각 개체 또는 종료 조건이 유지 될 때까지 중단됩니다. 이 방법은 엄격합니다. 즉, 병합 또는 분할이 완료되면 취소 할 수 없습니다.

계층 적 클러스터링의 품질을 개선하기위한 접근 방식

다음은 계층 적 클러스터링의 품질을 개선하는 데 사용되는 두 가지 접근 방식입니다.

  • 각 계층 분할에서 개체 연결에 대한 신중한 분석을 수행합니다.

  • 먼저 계층 적 응집 알고리즘을 사용하여 객체를 마이크로 클러스터로 그룹화 한 다음 마이크로 클러스터에서 매크로 클러스터링을 수행하여 계층 적 응집을 통합합니다.

밀도 기반 방법

이 방법은 밀도 개념을 기반으로합니다. 기본 아이디어는 이웃의 밀도가 특정 임계 값을 초과하는 한 주어진 클러스터를 계속 성장시키는 것입니다. 즉, 주어진 클러스터 내의 각 데이터 포인트에 대해 주어진 클러스터의 반경은 최소한 최소한의 포인트 수를 포함해야합니다.

그리드 기반 방법

이것에서 개체는 함께 격자를 형성합니다. 객체 공간은 격자 구조를 형성하는 유한 한 수의 셀로 양자화됩니다.

Advantages

  • 이 방법의 가장 큰 장점은 빠른 처리 시간입니다.

  • 양자화 된 공간에서 각 차원의 셀 수에만 의존합니다.

모델 기반 방법

이 방법에서는 주어진 모델에 가장 적합한 데이터를 찾기 위해 각 클러스터에 대해 모델이 가정됩니다. 이 방법은 밀도 함수를 클러스터링하여 클러스터를 찾습니다. 데이터 포인트의 공간 분포를 반영합니다.

이 방법은 또한 이상 값 또는 노이즈를 고려하여 표준 통계를 기반으로 클러스터 수를 자동으로 결정하는 방법을 제공합니다. 따라서 강력한 클러스터링 방법을 생성합니다.

제약 기반 방법

이 방법에서 클러스터링은 사용자 또는 애플리케이션 지향 제약을 통합하여 수행됩니다. 제약 조건은 사용자 기대 또는 원하는 클러스터링 결과의 속성을 나타냅니다. 제약 조건은 클러스터링 프로세스와의 대화식 통신 방법을 제공합니다. 제약 조건은 사용자 또는 응용 프로그램 요구 사항에 의해 지정 될 수 있습니다.

텍스트 데이터베이스는 방대한 문서 모음으로 구성됩니다. 뉴스 기사, 서적, 디지털 도서관, 전자 메일 메시지, 웹 페이지 등과 같은 여러 출처에서 이러한 정보를 수집합니다. 정보의 양이 증가함에 따라 텍스트 데이터베이스는 빠르게 성장하고 있습니다. 많은 텍스트 데이터베이스에서 데이터는 반 구조적입니다.

예를 들어 문서에는 제목, 작성자, 게시 날짜 등과 같은 몇 가지 구조화 된 필드가 포함될 수 있습니다. 그러나 구조 데이터와 함께 문서에는 추상 및 내용과 같은 구조화되지 않은 텍스트 구성 요소도 포함됩니다. 문서에 무엇이있을 수 있는지 알지 못하면 데이터에서 유용한 정보를 분석하고 추출하기위한 효과적인 쿼리를 작성하기가 어렵습니다. 사용자는 문서를 비교하고 중요도와 관련성의 순위를 매기는 도구가 필요합니다. 따라서 텍스트 마이닝이 대중화되고 데이터 마이닝의 필수 주제가되었습니다.

정보 검색

정보 검색은 많은 수의 텍스트 기반 문서에서 정보 검색을 다룹니다. 일부 데이터베이스 시스템은 서로 다른 종류의 데이터를 처리하기 때문에 일반적으로 정보 검색 시스템에 존재하지 않습니다. 정보 검색 시스템의 예는 다음과 같습니다.

  • 온라인 도서관 카탈로그 시스템
  • 온라인 문서 관리 시스템
  • 웹 검색 시스템 등

Note− 정보 검색 시스템의 주요 문제점은 사용자의 쿼리를 기반으로 문서 모음에서 관련 문서를 찾는 것입니다. 이러한 종류의 사용자 쿼리는 필요한 정보를 설명하는 몇 가지 키워드로 구성됩니다.

이러한 검색 문제에서 사용자는 컬렉션에서 관련 정보를 추출하기 위해 주도권을 잡습니다. 이는 사용자가 임시 정보가 필요한 경우 즉, 단기적인 정보가 필요한 경우에 적합합니다. 그러나 사용자가 장기간 정보를 필요로하는 경우 검색 시스템은 새로 도착한 정보 항목을 사용자에게 푸시하기 위해 주도권을 가질 수도 있습니다.

이러한 종류의 정보 액세스를 정보 필터링이라고합니다. 그리고 해당 시스템은 필터링 시스템 또는 추천 시스템으로 알려져 있습니다.

텍스트 검색을위한 기본 조치

사용자 입력을 기반으로 여러 문서를 검색 할 때 시스템의 정확성을 확인해야합니다. 쿼리와 관련된 문서 세트를 {Relevant}로 표시하고 검색된 문서 세트를 {Retrieved}로 표시합니다. 관련성이 있고 검색된 문서 세트는 {Relevant} ∩ {Retrieved}로 표시 할 수 있습니다. 이것은 다음과 같이 벤 다이어그램의 형태로 표시 될 수 있습니다.

텍스트 검색의 품질을 평가하기위한 세 가지 기본 조치가 있습니다.

  • Precision
  • Recall
  • F-score

정도

정밀도는 실제로 쿼리와 관련된 검색된 문서의 백분율입니다. 정밀도는 다음과 같이 정의 할 수 있습니다.

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

소환

재현율은 쿼리와 관련이 있고 실제로 검색된 문서의 비율입니다. 리콜은 다음과 같이 정의됩니다.

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F- 점수

F- 점수는 일반적으로 사용되는 트레이드 오프입니다. 정보 검색 시스템은 종종 정확성을 위해 트레이드 오프가 필요하거나 그 반대의 경우도 마찬가지입니다. F- 점수는 다음과 같이 재현율 또는 정밀도의 조화 평균으로 정의됩니다.

F-score = recall x precision / (recall + precision) / 2

World Wide Web에는 데이터 마이닝을위한 풍부한 소스를 제공하는 방대한 양의 정보가 포함되어 있습니다.

웹 마이닝의 과제

웹은 다음 관찰을 기반으로 자원 및 지식 발견에 큰 도전을 제기합니다.

  • The web is too huge− 웹의 크기가 매우 크고 빠르게 증가합니다. 이것은 웹이 데이터웨어 하우징 및 데이터 마이닝에 너무 큰 것 같습니다.

  • Complexity of Web pages− 웹 페이지는 통합 구조가 없습니다. 전통적인 텍스트 문서에 비해 매우 복잡합니다. 웹의 디지털 라이브러리에는 엄청난 양의 문서가 있습니다. 이러한 라이브러리는 특정 정렬 순서에 따라 정렬되지 않습니다.

  • Web is dynamic information source− 웹상의 정보는 빠르게 업데이트됩니다. 뉴스, 주식 시장, 날씨, 스포츠, 쇼핑 등과 같은 데이터는 정기적으로 업데이트됩니다.

  • Diversity of user communities− 웹상의 사용자 커뮤니티가 빠르게 확장되고 있습니다. 이러한 사용자는 배경, 관심사 및 사용 목적이 다릅니다. 인터넷에 연결되어있는 워크 스테이션은 1 억 개가 넘지 만 여전히 빠르게 증가하고 있습니다.

  • Relevancy of Information − 특정 사람은 일반적으로 웹의 작은 부분에만 관심이있는 반면 웹의 나머지 부분에는 사용자와 관련이없는 정보가 포함되어 있고 원하는 결과를 휩쓸 수있는 것으로 간주됩니다.

마이닝 웹 페이지 레이아웃 구조

웹 페이지의 기본 구조는 DOM (문서 개체 모델)을 기반으로합니다. DOM 구조는 페이지의 HTML 태그가 DOM 트리의 노드에 해당하는 구조와 같은 트리를 나타냅니다. HTML에서 미리 정의 된 태그를 사용하여 웹 페이지를 분할 할 수 있습니다. HTML 구문은 유연하므로 웹 페이지는 W3C 사양을 따르지 않습니다. W3C의 사양을 따르지 않으면 DOM 트리 구조에 오류가 발생할 수 있습니다.

DOM 구조는 처음에 웹 페이지의 의미 구조에 대한 설명이 아니라 브라우저에서 표시하기 위해 도입되었습니다. DOM 구조는 웹 페이지의 다른 부분 간의 의미 관계를 올바르게 식별 할 수 없습니다.

비전 기반 페이지 분할 (VIPS)

  • VIPS의 목적은 시각적 표현을 기반으로 웹 페이지의 의미 구조를 추출하는 것입니다.

  • 이러한 의미 구조는 트리 구조에 해당합니다. 이 트리에서 각 노드는 블록에 해당합니다.

  • 각 노드에 값이 할당됩니다. 이 값을 일관성 정도라고합니다. 이 값은 시각적 인식을 기반으로 블록의 일관된 콘텐츠를 나타 내기 위해 할당됩니다.

  • VIPS 알고리즘은 먼저 HTML DOM 트리에서 적합한 모든 블록을 추출합니다. 그 후이 블록 사이의 구분 기호를 찾습니다.

  • 구분 기호는 블록없이 시각적으로 교차하는 웹 페이지의 수평선 또는 수직선을 나타냅니다.

  • 웹 페이지의 의미는 이러한 블록을 기반으로 구성됩니다.

다음 그림은 VIPS 알고리즘의 절차를 보여줍니다-

데이터 마이닝은 다양한 분야에서 널리 사용됩니다. 오늘날 사용 가능한 많은 상용 데이터 마이닝 시스템이 있지만이 분야에는 많은 과제가 있습니다. 이 자습서에서는 데이터 마이닝의 응용 프로그램과 추세에 대해 설명합니다.

데이터 마이닝 애플리케이션

다음은 데이터 마이닝이 널리 사용되는 영역 목록입니다.

  • 재무 데이터 분석
  • 소매업
  • 통신 산업
  • 생물학적 데이터 분석
  • 기타 과학적 응용
  • 침입 탐지

재무 데이터 분석

은행 및 금융 산업의 재무 데이터는 일반적으로 신뢰할 수 있고 고품질이므로 체계적인 데이터 분석 및 데이터 마이닝이 가능합니다. 일반적인 경우는 다음과 같습니다.

  • 다차원 데이터 분석 및 데이터 마이닝을위한 데이터웨어 하우스 설계 및 구축.

  • 대출 지불 예측 및 고객 신용 정책 분석.

  • 타겟 마케팅을위한 고객 분류 및 클러스터링.

  • 자금 세탁 및 기타 금융 범죄 탐지.

소매업

데이터 마이닝은 판매, 고객 구매 내역, 상품 운송, 소비 및 서비스에 대한 많은 양의 데이터를 수집하기 때문에 소매 산업에서 큰 응용 프로그램을 가지고 있습니다. 웹의 용이성, 가용성 및 인기가 증가함에 따라 수집 된 데이터의 양이 계속해서 빠르게 확장되는 것은 당연합니다.

소매 업계의 데이터 마이닝은 고객 서비스 품질을 개선하고 고객 유지 및 만족도를 높이는 고객 구매 패턴과 추세를 식별하는 데 도움이됩니다. 다음은 소매 업계에서 데이터 마이닝의 예 목록입니다.

  • 데이터 마이닝의 이점을 기반으로 데이터웨어 하우스를 설계하고 구축합니다.

  • 판매, 고객, 제품, 시간 및 지역에 대한 다차원 분석.

  • 판매 캠페인의 효과 분석.

  • 고객 유지.

  • 제품 추천 및 항목 상호 참조.

통신 산업

오늘날 통신 산업은 팩스, 호출기, 휴대폰, 인터넷 메신저, 이미지, 이메일, 웹 데이터 전송 등과 같은 다양한 서비스를 제공하는 가장 신흥 산업 중 하나입니다. 새로운 컴퓨터 및 통신 기술의 발전으로 인해 통신 산업은 빠르게 확장되고 있습니다. 이것이 데이터 마이닝이 비즈니스를 돕고 이해하는 데 매우 중요한 이유입니다.

통신 산업의 데이터 마이닝은 통신 패턴을 식별하고, 사기 활동을 포착하고, 리소스를 더 잘 활용하고, 서비스 품질을 개선하는 데 도움이됩니다. 다음은 데이터 마이닝이 통신 서비스를 향상시키는 예 목록입니다.

  • 통신 데이터의 다차원 분석.

  • 사기 패턴 분석.

  • 비정상적인 패턴 식별.

  • 다차원 적 연관성 및 순차적 패턴 분석.

  • 이동 통신 서비스.

  • 통신 데이터 분석에서 시각화 도구 사용.

생물학적 데이터 분석

최근 우리는 유전체학, 단백질 체학, 기능성 유전체학 및 생물 의학 연구와 같은 생물학 분야에서 엄청난 성장을 보였습니다. 생물학적 데이터 마이닝은 생물 정보학에서 매우 중요한 부분입니다. 다음은 데이터 마이닝이 생물학적 데이터 분석에 기여하는 측면입니다.

  • 이기종 분산 게놈 및 단백질 데이터베이스의 의미 통합.

  • 정렬, 인덱싱, 유사성 검색 및 비교 분석 여러 뉴클레오티드 시퀀스.

  • 구조적 패턴 발견과 유전 네트워크 및 단백질 경로 분석.

  • 연관성 및 경로 분석.

  • 유전 데이터 분석의 시각화 도구.

기타 과학적 응용

위에서 설명한 응용 프로그램은 통계 기법이 적합한 비교적 작고 동질적인 데이터 세트를 처리하는 경향이 있습니다. 지구과학, 천문학 등 과학 분야에서 막대한 양의 데이터가 수집되었습니다. 기후 및 생태계 모델링, 화학 공학, 유체 역학 등 다양한 분야의 빠른 수치 시뮬레이션으로 인해 대량의 데이터 세트가 생성되고 있습니다. 다음은 과학 응용 분야에서 데이터 마이닝의 응용 프로그램입니다-

  • 데이터웨어 하우스 및 데이터 전처리.
  • 그래프 기반 마이닝.
  • 시각화 및 영역 별 지식.

침입 탐지

침입은 네트워크 리소스의 무결성, 기밀성 또는 가용성을 위협하는 모든 종류의 작업을 의미합니다. 이 연결 세계에서 보안은 주요 문제가되었습니다. 인터넷 사용이 증가하고 네트워크 침입 및 공격을위한 도구 및 트릭의 가용성으로 인해 침입 탐지가 네트워크 관리의 중요한 구성 요소가되었습니다. 다음은 데이터 마이닝 기술이 침입 탐지에 적용될 수있는 영역 목록입니다.

  • 침입 탐지를위한 데이터 마이닝 알고리즘 개발.

  • 연관성 및 상관 관계 분석, 집계를 통해 구별되는 속성을 선택하고 구축 할 수 있습니다.

  • 스트림 데이터 분석.

  • 분산 데이터 마이닝.

  • 시각화 및 쿼리 도구.

데이터 마이닝 시스템 제품

많은 데이터 마이닝 시스템 제품과 도메인 별 데이터 마이닝 응용 프로그램이 있습니다. 새로운 데이터 마이닝 시스템과 애플리케이션이 이전 시스템에 추가되고 있습니다. 또한 데이터 마이닝 언어를 표준화하기 위해 노력하고 있습니다.

데이터 마이닝 시스템 선택

데이터 마이닝 시스템의 선택은 다음 기능에 따라 다릅니다.

  • Data Types− 데이터 마이닝 시스템은 형식화 된 텍스트, 레코드 기반 데이터 및 관계형 데이터를 처리 할 수 ​​있습니다. 데이터는 ASCII 텍스트, 관계형 데이터베이스 데이터 또는 데이터웨어 하우스 데이터 일 수도 있습니다. 따라서 데이터 마이닝 시스템이 처리 할 수있는 정확한 형식을 확인해야합니다.

  • System Issues− 다른 운영 체제와 데이터 마이닝 시스템의 호환성을 고려해야합니다. 하나의 데이터 마이닝 시스템은 하나의 운영 체제 또는 여러 운영 체제에서 실행될 수 있습니다. 웹 기반 사용자 인터페이스를 제공하고 XML 데이터를 입력으로 허용하는 데이터 마이닝 시스템도 있습니다.

  • Data Sources− 데이터 소스는 데이터 마이닝 시스템이 작동하는 데이터 형식을 의미합니다. 일부 데이터 마이닝 시스템은 ASCII 텍스트 파일에서만 작동하는 반면 다른 데이터 마이닝 시스템은 여러 관계형 소스에서 작동 할 수 있습니다. 데이터 마이닝 시스템은 ODBC 연결 또는 ODBC 연결 용 OLE DB도 지원해야합니다.

  • Data Mining functions and methodologies − 분류와 같은 하나의 데이터 마이닝 기능 만 제공하는 일부 데이터 마이닝 시스템이 있으며 일부는 개념 설명, 발견 기반 OLAP 분석, 연관 마이닝, 연계 분석, 통계 분석, 분류, 예측, 클러스터링, 이상치 분석, 유사성 검색 등

  • Coupling data mining with databases or data warehouse systems− 데이터 마이닝 시스템은 데이터베이스 또는 데이터웨어 하우스 시스템과 결합되어야합니다. 결합 된 구성 요소는 일관된 정보 처리 환경에 통합됩니다. 다음은 아래에 나열된 커플 링 유형입니다.

    • 커플 링 없음
    • 느슨한 결합
    • 세미 타이트 커플 링
    • 타이트 커플 링
  • Scalability − 데이터 마이닝에는 두 가지 확장 성 문제가 있습니다 −

    • Row (Database size) Scalability− 데이터 마이닝 시스템은 개수 또는 행이 10 배 확대 될 때 행 확장 가능한 것으로 간주됩니다. 쿼리를 실행하는 데 10 번 이상 걸리지 않습니다.

    • Column (Dimension) Salability − 데이터 마이닝 시스템은 마이닝 쿼리 실행 시간이 컬럼 수에 따라 선형 적으로 증가하면 확장 가능한 컬럼으로 간주됩니다.

  • Visualization Tools − 데이터 마이닝의 시각화는 다음과 같이 분류 할 수 있습니다 −

    • 데이터 시각화
    • 마이닝 결과 시각화
    • 채굴 과정 시각화
    • 시각적 데이터 마이닝
  • Data Mining query language and graphical user interface− 사용하기 쉬운 그래픽 사용자 인터페이스는 사용자 안내 대화식 데이터 마이닝을 촉진하는 데 중요합니다. 관계형 데이터베이스 시스템과 달리 데이터 마이닝 시스템은 기본 데이터 마이닝 쿼리 언어를 공유하지 않습니다.

데이터 마이닝의 동향

데이터 마이닝 개념은 여전히 ​​발전하고 있으며 여기에이 분야에서 볼 수있는 최신 트렌드가 있습니다.

  • 응용 프로그램 탐색.

  • 확장 가능한 대화 형 데이터 마이닝 방법.

  • 데이터 마이닝을 데이터베이스 시스템, 데이터웨어 하우스 시스템 및 웹 데이터베이스 시스템과 통합합니다.

  • 데이터 마이닝 쿼리 언어의 표준화.

  • 시각적 데이터 마이닝.

  • 복잡한 유형의 데이터를 마이닝하는 새로운 방법.

  • 생물학적 데이터 마이닝.

  • 데이터 마이닝 및 소프트웨어 엔지니어링.

  • 웹 마이닝.

  • 분산 데이터 마이닝.

  • 실시간 데이터 마이닝.

  • 다중 데이터베이스 데이터 마이닝.

  • 데이터 마이닝의 개인 정보 보호 및 정보 보안.

데이터 마이닝의 이론적 기초

데이터 마이닝의 이론적 기반에는 다음 개념이 포함됩니다.

  • Data Reduction−이 이론의 기본 아이디어는 매우 큰 데이터베이스의 쿼리에 대한 빠른 대략적인 답변을 얻을 필요에 따라 속도와 정확성을 교환하는 데이터 표현을 줄이는 것입니다. 데이터 축소 기술 중 일부는 다음과 같습니다.

    • 특이 값 분해

    • Wavelets

    • Regression

    • 로그 선형 모델

    • Histograms

    • Clustering

    • Sampling

    • 인덱스 트리 구성

  • Data Compression −이 이론의 기본 개념은 다음과 같은 측면에서 인코딩하여 주어진 데이터를 압축하는 것입니다.

    • Bits

    • 협회 규칙

    • 의사 결정 트리

    • Clusters

  • Pattern Discovery−이 이론의 기본 아이디어는 데이터베이스에서 발생하는 패턴을 발견하는 것입니다. 다음은이 이론에 기여하는 영역입니다.

    • 기계 학습

    • 신경망

    • 협회 채굴

    • 순차적 패턴 매칭

    • Clustering

  • Probability Theory−이 이론은 통계 이론을 기반으로합니다. 이 이론의 기본 아이디어는 확률 변수의 공동 확률 분포를 발견하는 것입니다.

  • Probability Theory −이 이론에 따르면 데이터 마이닝은 일부 기업의 의사 결정 과정에서 사용할 수있는 범위 내에서만 흥미로운 패턴을 찾습니다.

  • Microeconomic View−이 이론에 따라 데이터베이스 스키마는 데이터베이스에 저장된 데이터와 패턴으로 구성됩니다. 따라서 데이터 마이닝은 데이터베이스에서 유도를 수행하는 작업입니다.

  • Inductive databases− 데이터베이스 지향 기술 외에도 데이터 분석에 사용할 수있는 통계 기술이 있습니다. 이러한 기술은 경제 및 사회 과학의 과학 데이터 및 데이터에도 적용될 수 있습니다.

통계 데이터 마이닝

통계 데이터 마이닝 기법 중 일부는 다음과 같습니다.

  • Regression− 회귀 방법은 변수가 숫자 인 하나 이상의 예측 변수에서 응답 변수의 값을 예측하는 데 사용됩니다. 다음은 회귀의 형태입니다.

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models − 일반화 선형 모형에는 −

    • 로지스틱 회귀

    • 푸 아송 회귀

    모델의 일반화를 사용하면 선형 회귀를 사용하는 숫자 응답 변수의 모델링과 유사한 방식으로 범주 형 응답 변수를 예측 변수 집합과 관련시킬 수 있습니다.

  • Analysis of Variance −이 기법은 −

    • 숫자 응답 변수로 설명되는 둘 이상의 모집단에 대한 실험 데이터입니다.

    • 하나 이상의 범주 형 변수 (요인).

  • Mixed-effect Models−이 모델은 그룹화 된 데이터를 분석하는 데 사용됩니다. 이러한 모델은 하나 이상의 요인에 따라 그룹화 된 데이터에서 반응 변수와 일부 공변량 간의 관계를 설명합니다.

  • Factor Analysis− 요인 분석은 범주 형 반응 변수를 예측하는 데 사용됩니다. 이 방법은 독립 변수가 다변량 정규 분포를 따른다고 가정합니다.

  • Time Series Analysis − 다음은 시계열 데이터를 분석하는 방법입니다 −

    • 자동 회귀 방법.

    • 일 변량 ARIMA (자동 회귀 통합 이동 평균) 모델링.

    • 긴 메모리 시계열 모델링.

비주얼 데이터 마이닝

Visual Data Mining은 데이터 및 / 또는 지식 시각화 기술을 사용하여 대규모 데이터 세트에서 암시 적 지식을 발견합니다. 시각적 데이터 마이닝은 다음 분야의 통합으로 볼 수 있습니다.

  • 데이터 시각화

  • 데이터 수집

시각적 데이터 마이닝은 다음과 밀접한 관련이 있습니다.

  • 컴퓨터 그래픽

  • 멀티미디어 시스템

  • 인간 컴퓨터 상호 작용

  • 패턴 인식

  • 고성능 컴퓨팅

일반적으로 데이터 시각화 및 데이터 마이닝은 다음과 같은 방식으로 통합 될 수 있습니다.

  • Data Visualization − 데이터베이스 또는 데이터웨어 하우스의 데이터는 아래 나열된 여러 시각적 형태로 볼 수 있습니다.

    • Boxplots

    • 3 차원 큐브

    • 데이터 분포 차트

    • Curves

    • Surfaces

    • 링크 그래프 등

  • Data Mining Result Visualization− 데이터 마이닝 결과 시각화는 데이터 마이닝 결과를 시각적 형식으로 표현한 것입니다. 이러한 시각적 형식은 산점도, 상자 그림 등이 될 수 있습니다.

  • Data Mining Process Visualization− 데이터 마이닝 프로세스 시각화는 데이터 마이닝의 여러 프로세스를 보여줍니다. 사용자는 데이터가 추출되는 방법을 볼 수 있습니다. 또한 사용자는 데이터가 정리, 통합, 사전 처리 및 마이닝되는 데이터베이스 또는 데이터웨어 하우스를 볼 수 있습니다.

오디오 데이터 마이닝

오디오 데이터 마이닝은 오디오 신호를 사용하여 데이터 패턴 또는 데이터 마이닝 결과의 특징을 나타냅니다. 패턴을 소리로 바꾸고 묵상함으로써 우리는 흥미로운 것을 식별하기 위해 그림을 보는 대신 음조와 선율을들을 수 있습니다.

데이터 마이닝 및 협업 필터링

오늘날 소비자는 쇼핑하는 동안 다양한 상품과 서비스를 접하게됩니다. 실시간 고객 거래 중에 Recommender System은 제품을 추천하여 소비자를 돕습니다. Collaborative Filtering Approach는 일반적으로 고객에게 제품을 추천하는 데 사용됩니다. 이러한 권장 사항은 다른 고객의 의견을 기반으로합니다.