데이터 마이닝-마이닝 월드 와이드 웹
World Wide Web에는 데이터 마이닝을위한 풍부한 소스를 제공하는 방대한 양의 정보가 포함되어 있습니다.
웹 마이닝의 과제
웹은 다음 관찰을 기반으로 자원 및 지식 발견에 큰 도전을 제기합니다.
The web is too huge− 웹의 크기가 매우 크고 빠르게 증가합니다. 이것은 웹이 데이터웨어 하우징 및 데이터 마이닝에 너무 큰 것 같습니다.
Complexity of Web pages− 웹 페이지에는 통합 구조가 없습니다. 전통적인 텍스트 문서에 비해 매우 복잡합니다. 웹의 디지털 라이브러리에는 엄청난 양의 문서가 있습니다. 이러한 라이브러리는 특정 정렬 순서에 따라 정렬되지 않습니다.
Web is dynamic information source− 웹상의 정보는 빠르게 업데이트됩니다. 뉴스, 주식 시장, 날씨, 스포츠, 쇼핑 등과 같은 데이터는 정기적으로 업데이트됩니다.
Diversity of user communities− 웹상의 사용자 커뮤니티가 빠르게 확장되고 있습니다. 이러한 사용자는 배경, 관심사 및 사용 목적이 다릅니다. 인터넷에 연결되어있는 워크 스테이션은 1 억 개가 넘지 만 여전히 빠르게 증가하고 있습니다.
Relevancy of Information − 특정 사람은 일반적으로 웹의 작은 부분에만 관심이있는 반면 웹의 나머지 부분에는 사용자와 관련이없는 정보가 포함되어있어 원하는 결과를 휩쓸 수있는 것으로 간주됩니다.
마이닝 웹 페이지 레이아웃 구조
웹 페이지의 기본 구조는 DOM (문서 개체 모델)을 기반으로합니다. DOM 구조는 페이지의 HTML 태그가 DOM 트리의 노드에 해당하는 구조와 같은 트리를 나타냅니다. HTML에서 미리 정의 된 태그를 사용하여 웹 페이지를 분할 할 수 있습니다. HTML 구문은 유연하므로 웹 페이지는 W3C 사양을 따르지 않습니다. W3C의 사양을 따르지 않으면 DOM 트리 구조에 오류가 발생할 수 있습니다.
DOM 구조는 처음에 웹 페이지의 의미 구조에 대한 설명이 아니라 브라우저에서 표시하기 위해 도입되었습니다. DOM 구조는 웹 페이지의 다른 부분 간의 의미 관계를 올바르게 식별 할 수 없습니다.
비전 기반 페이지 분할 (VIPS)
VIPS의 목적은 시각적 표현을 기반으로 웹 페이지의 의미 구조를 추출하는 것입니다.
이러한 의미 구조는 트리 구조에 해당합니다. 이 트리에서 각 노드는 블록에 해당합니다.
각 노드에 값이 할당됩니다. 이 값을 일관성 정도라고합니다. 이 값은 시각적 인식을 기반으로 블록의 일관된 콘텐츠를 나타 내기 위해 할당됩니다.
VIPS 알고리즘은 먼저 HTML DOM 트리에서 적합한 모든 블록을 추출합니다. 그 후이 블록 사이의 구분 기호를 찾습니다.
구분 기호는 블록없이 시각적으로 교차하는 웹 페이지의 수평선 또는 수직선을 나타냅니다.
웹 페이지의 의미는 이러한 블록을 기반으로 구성됩니다.
다음 그림은 VIPS 알고리즘의 절차를 보여줍니다-