データマイニング-評価
データウェアハウス
データウェアハウスは、経営陣の意思決定プロセスをサポートするために次の特性を示します。
Subject Oriented−データウェアハウスは、組織の進行中の運用ではなく、サブジェクトに関する情報を提供するため、サブジェクト指向です。これらの主題には、製品、顧客、サプライヤー、売上、収益などがあります。データウェアハウスは、進行中の操作に焦点を当てるのではなく、意思決定のためのデータのモデリングと分析に焦点を合わせます。
Integrated −データウェアハウスは、リレーショナルデータベース、フラットファイルなどの異種ソースからのデータを統合することによって構築されます。この統合により、データの効果的な分析が強化されます。
Time Variant−データウェアハウスで収集されたデータは、特定の期間で識別されます。データウェアハウス内のデータは、履歴の観点から情報を提供します。
Non-volatile−不揮発性とは、新しいデータが追加されたときに以前のデータが削除されないことを意味します。データウェアハウスは運用データベースから分離されているため、運用データベースの頻繁な変更はデータウェアハウスに反映されません。
データウェアハウジング
データウェアハウジングは、データウェアハウスを構築して使用するプロセスです。データウェアハウスは、複数の異種ソースからのデータを統合することによって構築されます。分析レポート、構造化および/またはアドホッククエリ、および意思決定をサポートします。
データウェアハウジングには、データクリーニング、データ統合、およびデータ統合が含まれます。異種データベースを統合するために、次の2つのアプローチがあります。
- クエリ駆動型アプローチ
- ドリブンアプローチの更新
クエリ駆動型アプローチ
これは、異種データベースを統合するための従来のアプローチです。このアプローチは、複数の異種データベースの上にラッパーとインテグレーターを構築するために使用されます。これらのインテグレーターは、メディエーターとしても知られています。
クエリ駆動型アプローチのプロセス
クエリがクライアント側に発行されると、メタデータディクショナリはクエリをクエリに変換します。これは、関係する個々の異種サイトに適しています。
これで、これらのクエリがマッピングされ、ローカルクエリプロセッサに送信されます。
異種サイトからの結果は、グローバルな回答セットに統合されます。
短所
このアプローチには次の欠点があります-
クエリ駆動型アプローチには、複雑な統合およびフィルタリングプロセスが必要です。
これは非常に非効率的で、頻繁なクエリには非常に費用がかかります。
このアプローチは、集計を必要とするクエリにはコストがかかります。
更新主導型アプローチ
今日のデータウェアハウスシステムは、前述の従来のアプローチではなく、更新主導のアプローチに従います。更新主導型のアプローチでは、複数の異種ソースからの情報が事前に統合され、ウェアハウスに保存されます。この情報は、直接のクエリと分析に利用できます。
利点
このアプローチには次の利点があります-
このアプローチは、高いパフォーマンスを提供します。
データは、事前にセマンティックデータストアでコピー、処理、統合、注釈付け、要約、および再構築できます。
クエリ処理には、ローカルソースでの処理とのインターフェイスは必要ありません。
データウェアハウジング(OLAP)からデータマイニング(OLAM)へ
オンライン分析マイニングは、多次元データベースのデータマイニングおよびマイニング知識を備えたオンライン分析処理と統合されています。これは、OLAPとOLAMの両方の統合を示す図です。
OLAMの重要性
OLAMは以下の理由で重要です-
High quality of data in data warehouses−統合され、一貫性があり、クリーンなデータを処理するには、データマイニングツールが必要です。これらの手順は、データの前処理に非常にコストがかかります。このような前処理によって構築されたデータウェアハウスは、OLAPおよびデータマイニングにとっても高品質のデータの貴重なソースです。
Available information processing infrastructure surrounding data warehouses −情報処理インフラストラクチャとは、複数の異種データベース、Webアクセスおよびサービス機能、レポートおよびOLAP分析ツールへのアクセス、統合、統合、および変換を指します。
OLAP−based exploratory data analysis−効果的なデータマイニングには、探索的データ分析が必要です。OLAMは、データのさまざまなサブセットで、さまざまな抽象化レベルでデータマイニングを行うための機能を提供します。
Online selection of data mining functions − OLAPを複数のデータマイニング機能およびオンライン分析マイニングと統合することにより、ユーザーは、必要なデータマイニング機能を選択し、データマイニングタスクを動的に交換する柔軟性を得ることができます。