データマイニング-テキストデータのマイニング
テキストデータベースは、膨大な数のドキュメントで構成されています。ニュース記事、本、デジタルライブラリ、電子メールメッセージ、Webページなど、いくつかのソースからこれらの情報を収集します。情報量の増加により、テキストデータベースは急速に成長しています。多くのテキストデータベースでは、データは半構造化されています。
たとえば、ドキュメントには、title、author、publishing_dateなどのいくつかの構造化フィールドが含まれる場合があります。ただし、ドキュメントには、構造化データとともに、要約やコンテンツなどの非構造化テキストコンポーネントも含まれます。ドキュメントに何が含まれている可能性があるかを知らなければ、データから有用な情報を分析および抽出するための効果的なクエリを作成することは困難です。ユーザーは、ドキュメントを比較し、それらの重要性と関連性をランク付けするためのツールを必要としています。したがって、テキストマイニングは人気があり、データマイニングの重要なテーマになっています。
情報検索
情報検索は、多数のテキストベースのドキュメントからの情報の検索を扱います。一部のデータベースシステムは、両方が異なる種類のデータを処理するため、通常、情報検索システムには存在しません。情報検索システムの例は次のとおりです。
- オンライン図書館目録システム
- オンラインドキュメント管理システム
- Web検索システムなど。
Note−情報検索システムの主な問題は、ユーザーのクエリに基づいてドキュメントコレクション内の関連ドキュメントを見つけることです。この種のユーザーのクエリは、情報の必要性を説明するいくつかのキーワードで構成されています。
このような検索問題では、ユーザーが率先してコレクションから関連情報を引き出します。これは、ユーザーがアドホックな情報を必要としている場合、つまり短期的な必要がある場合に適しています。しかし、ユーザーが長期的な情報を必要としている場合、検索システムは、新しく到着した情報アイテムをユーザーにプッシュするイニシアチブを取ることもできます。
この種の情報へのアクセスは、情報フィルタリングと呼ばれます。また、対応するシステムは、フィルタリングシステムまたはレコメンダーシステムとして知られています。
テキスト検索の基本的な方法
ユーザーの入力に基づいて多数のドキュメントを取得する場合、システムの精度をチェックする必要があります。クエリに関連するドキュメントのセットを{Relevant}として示し、取得したドキュメントのセットを{Retrieved}として示します。関連して取得されたドキュメントのセットは、{関連}∩{取得済み}として表すことができます。これは、次のようにベン図の形式で表示できます。
テキスト検索の品質を評価するための3つの基本的な尺度があります-
- Precision
- Recall
- F-score
精度
精度は、クエリに実際に関連する取得済みドキュメントの割合です。精度は次のように定義できます-
Precision= |{Relevant} ∩ {Retrieved}| / |{Retrieved}|
想起
リコールは、クエリに関連し、実際に取得されたドキュメントの割合です。再現率は次のように定義されます-
Recall = |{Relevant} ∩ {Retrieved}| / |{Relevant}|
Fスコア
Fスコアは、一般的に使用されるトレードオフです。情報検索システムは、多くの場合、精度とトレードオフする必要があります。その逆も同様です。Fスコアは、次のようにリコールまたは精度の調和平均として定義されます。
F-score = recall x precision / (recall + precision) / 2