データマイニング-マイニングワールドワイドウェブ

World Wide Webには、データマイニングの豊富なソースを提供する膨大な量の情報が含まれています。

Webマイニングの課題

Webは、次の観察に基づいて、リソースと知識の発見に大きな課題をもたらします-

The web is too huge−ウェブのサイズは非常に大きく、急速に拡大しています。これは、Webがデータウェアハウジングやデータマイニングには大きすぎるようです。
Complexity of Web pages−Webページは統一された構造を持っていません。従来のテキストドキュメントと比較すると、非常に複雑です。ウェブのデジタルライブラリには膨大な量のドキュメントがあります。これらのライブラリは、特定のソート順に従って配置されていません。
Web is dynamic information source−ウェブ上の情報は急速に更新されます。ニュース、株式市場、天気、スポーツ、ショッピングなどのデータは定期的に更新されます。
Diversity of user communities−Web上のユーザーコミュニティは急速に拡大しています。これらのユーザーは、さまざまな背景、興味、および使用目的を持っています。インターネットに接続されているワークステーションは1億台を超えており、現在も急速に増加しています。
Relevancy of Information −一般に、特定の人はWebのごく一部にしか関心がなく、Webの残りの部分にはユーザーに関係のない情報が含まれており、望ましい結果が得られない可能性があると考えられます。

マイニングWebページのレイアウト構造

Webページの基本構造は、ドキュメントオブジェクトモデル（DOM）に基づいています。DOM構造は、ページ内のHTMLタグがDOMツリー内のノードに対応するツリーのような構造を指します。HTMLで事前定義されたタグを使用して、Webページをセグメント化できます。HTML構文は柔軟であるため、WebページはW3C仕様に準拠していません。W3Cの仕様に従わないと、DOMツリー構造でエラーが発生する可能性があります。

DOM構造は当初、Webページのセマンティック構造の説明ではなく、ブラウザーでの表示のために導入されました。DOM構造は、Webページのさまざまな部分間の意味関係を正しく識別できません。

ビジョンベースのページセグメンテーション（VIPS）

VIPSの目的は、視覚的な表現に基づいてWebページのセマンティック構造を抽出することです。
このような意味構造は、ツリー構造に対応します。このツリーでは、各ノードがブロックに対応しています。
各ノードに値が割り当てられます。この値は、コヒーレンス度と呼ばれます。この値は、視覚に基づいてブロック内の一貫性のあるコンテンツを示すために割り当てられます。
VIPSアルゴリズムは、最初にHTMLDOMツリーからすべての適切なブロックを抽出します。その後、これらのブロック間のセパレーターを見つけます。
区切り文字は、ブロックなしで視覚的に交差するWebページの水平線または垂直線を指します。
Webページのセマンティクスは、これらのブロックに基づいて構築されます。

次の図は、VIPSアルゴリズムの手順を示しています-