데이터 마이닝-문제
사용되는 알고리즘이 매우 복잡해질 수 있고 데이터를 항상 한 곳에서 사용할 수있는 것은 아니기 때문에 데이터 마이닝은 쉬운 작업이 아닙니다. 다양한 이기종 데이터 소스에서 통합되어야합니다. 이러한 요인으로 인해 몇 가지 문제가 발생합니다. 이 튜토리얼에서는 다음과 관련된 주요 문제에 대해 논의합니다.
- 채굴 방법론 및 사용자 상호 작용
- 성능 문제
- 다양한 데이터 유형 문제
다음 다이어그램은 주요 문제를 설명합니다.
채굴 방법론 및 사용자 상호 작용 문제
다음과 같은 종류의 문제를 나타냅니다.
Mining different kinds of knowledge in databases− 사용자마다 다른 지식에 관심이있을 수 있습니다. 따라서 데이터 마이닝은 광범위한 지식 발견 작업을 포괄해야합니다.
Interactive mining of knowledge at multiple levels of abstraction − 데이터 마이닝 프로세스는 사용자가 패턴 검색에 집중하고 반환 된 결과를 기반으로 데이터 마이닝 요청을 제공하고 구체화 할 수 있기 때문에 대화 형이어야합니다.
Incorporation of background knowledge− 발견 과정을 안내하고 발견 된 패턴을 표현하기 위해 배경 지식을 사용할 수 있습니다. 배경 지식은 간결한 용어뿐만 아니라 여러 수준의 추상화로 발견 된 패턴을 표현하는 데 사용될 수 있습니다.
Data mining query languages and ad hoc data mining − 사용자가 임시 마이닝 작업을 설명 할 수있는 데이터 마이닝 쿼리 언어는 데이터웨어 하우스 쿼리 언어와 통합되어야하며 효율적이고 유연한 데이터 마이닝을 위해 최적화되어야합니다.
Presentation and visualization of data mining results− 패턴이 발견되면 높은 수준의 언어와 시각적 표현으로 표현되어야합니다. 이러한 표현은 쉽게 이해할 수 있어야합니다.
Handling noisy or incomplete data− 데이터 규칙 성을 채굴하면서 노이즈와 불완전한 개체를 처리하려면 데이터 정리 방법이 필요합니다. 데이터 정리 방법이 없으면 발견 된 패턴의 정확도가 떨어집니다.
Pattern evaluation − 발견 된 패턴은 상식을 나타내거나 참신함이 부족하기 때문에 흥미로워 야합니다.
성능 문제
다음과 같은 성능 관련 문제가있을 수 있습니다.
Efficiency and scalability of data mining algorithms − 데이터베이스에있는 방대한 양의 데이터에서 정보를 효과적으로 추출하려면 데이터 마이닝 알고리즘이 효율적이고 확장 가능해야합니다.
Parallel, distributed, and incremental mining algorithms− 거대한 데이터베이스 크기, 광범위한 데이터 분포, 데이터 마이닝 방법의 복잡성과 같은 요인은 병렬 및 분산 데이터 마이닝 알고리즘의 개발에 동기를 부여합니다. 이러한 알고리즘은 데이터를 병렬 방식으로 추가 처리되는 파티션으로 나눕니다. 그런 다음 파티션의 결과가 병합됩니다. 증분 알고리즘은 데이터를 처음부터 다시 채굴하지 않고 데이터베이스를 업데이트합니다.
다양한 데이터 유형 문제
Handling of relational and complex types of data − 데이터베이스는 복잡한 데이터 객체, 멀티미디어 데이터 객체, 공간 데이터, 시간 데이터 등을 포함 할 수 있습니다. 한 시스템이 이러한 모든 종류의 데이터를 마이닝하는 것은 불가능합니다.
Mining information from heterogeneous databases and global information systems− 데이터는 LAN 또는 WAN의 다른 데이터 소스에서 사용할 수 있습니다. 이러한 데이터 소스는 구조화, 반 구조화 또는 구조화되지 않을 수 있습니다. 따라서 그들로부터 지식을 마이닝하면 데이터 마이닝에 어려움이 추가됩니다.