データマイニング-タスク
データマイニングは、マイニングできるパターンの種類を扱います。マイニングするデータの種類に基づいて、データマイニングに関連する機能には2つのカテゴリがあります-
- Descriptive
- 分類と予測
記述機能
記述関数は、データベース内のデータの一般的なプロパティを処理します。これが記述関数のリストです-
- クラス/概念の説明
- 頻繁なパターンのマイニング
- 協会のマイニング
- 相関のマイニング
- クラスターのマイニング
クラス/概念の説明
クラス/概念は、クラスまたは概念に関連付けられるデータを指します。たとえば、会社では、販売するアイテムのクラスにはコンピューターとプリンターが含まれ、顧客の概念には多額の支出者と予算の支出者が含まれます。このようなクラスまたは概念の説明は、クラス/概念の説明と呼ばれます。これらの説明は、次の2つの方法で導き出すことができます。
Data Characterization−これは調査中のクラスのデータを要約することを指します。調査中のこのクラスは、ターゲットクラスと呼ばれます。
Data Discrimination −事前定義されたグループまたはクラスを持つクラスのマッピングまたは分類を指します。
頻繁なパターンのマイニング
頻繁なパターンは、トランザクションデータで頻繁に発生するパターンです。これが頻繁なパターンの種類のリストです-
Frequent Item Set −牛乳やパンなど、頻繁に一緒に表示されるアイテムのセットを指します。
Frequent Subsequence −カメラの購入など、頻繁に発生する一連のパターンの後に、メモリカードが続きます。
Frequent Sub Structure −部分構造とは、グラフ、ツリー、ラティスなどのさまざまな構造形式を指し、アイテムセットまたはサブシーケンスと組み合わせることができます。
協会の鉱業
アソシエーションは、一緒に購入されることが多いパターンを識別するために小売販売で使用されます。このプロセスとは、データ間の関係を明らかにし、相関ルールを決定するプロセスを指します。
たとえば、小売業者は、牛乳がパンと一緒に販売される時間の70%と、ビスケットがパンと一緒に販売される時間の30%のみを示す相関ルールを生成します。
相関のマイニング
これは、関連する属性値のペア間、または2つのアイテムセット間の興味深い統計的相関関係を明らかにするために実行される一種の追加分析であり、それらが互いに正、負、またはまったく影響を与えないかどうかを分析します。
クラスターのマイニング
クラスターとは、同様の種類のオブジェクトのグループを指します。クラスター分析とは、互いに非常に類似しているが、他のクラスター内のオブジェクトとは大きく異なるオブジェクトのグループを形成することを指します。
分類と予測
分類は、データクラスまたは概念を説明するモデルを見つけるプロセスです。目的は、このモデルを使用して、クラスラベルが不明なオブジェクトのクラスを予測できるようにすることです。この派生モデルは、トレーニングデータのセットの分析に基づいています。導出されたモデルは、次の形式で表すことができます-
- 分類(IF-THEN)ルール
- デシジョンツリー
- 数式
- ニューラルネットワーク
これらのプロセスに関連する機能のリストは次のとおりです。
Classification−クラスラベルが不明なオブジェクトのクラスを予測します。その目的は、データクラスまたは概念を記述および区別する派生モデルを見つけることです。派生モデルは、トレーニングデータの分析セット、つまりクラスラベルがよく知られているデータオブジェクトに基づいています。
Prediction−クラスラベルではなく、欠落または使用できない数値データ値を予測するために使用されます。回帰分析は通常、予測に使用されます。予測は、利用可能なデータに基づいて分布傾向を特定するためにも使用できます。
Outlier Analysis −外れ値は、利用可能なデータの一般的な動作またはモデルに準拠していないデータオブジェクトとして定義される場合があります。
Evolution Analysis −進化分析とは、時間の経過とともに動作が変化するオブジェクトの説明とモデルの規則性または傾向を指します。
データマイニングタスクプリミティブ
- データマイニングクエリの形式でデータマイニングタスクを指定できます。
- このクエリはシステムに入力されます。
- データマイニングクエリは、データマイニングタスクプリミティブの観点から定義されます。
Note−これらのプリミティブにより、データマイニングシステムとインタラクティブに通信できます。これがデータマイニングタスクプリミティブのリストです-
- マイニングするタスク関連データのセット。
- マイニングする知識の種類。
- 発見プロセスで使用される背景知識。
- パターン評価のための興味深い尺度としきい値。
- 発見されたパターンを視覚化するための表現。
マイニングするタスク関連データのセット
これは、ユーザーが関心を持っているデータベースの部分です。この部分には以下が含まれます-
- データベース属性
- 関心のあるデータウェアハウスのディメンション
マイニングする知識の種類
実行する機能の種類を指します。これらの関数は次のとおりです。
- Characterization
- Discrimination
- 関連付けと相関分析
- Classification
- Prediction
- Clustering
- 外れ値分析
- 進化分析
背景知識
背景知識により、複数の抽象化レベルでデータをマイニングできます。たとえば、概念階層は、複数の抽象化レベルでデータをマイニングできるようにする背景知識の1つです。
パターン評価の面白さの尺度としきい値
これは、知識発見のプロセスによって発見されたパターンを評価するために使用されます。さまざまな種類の知識には、さまざまな興味深い手段があります。
発見されたパターンを視覚化するための表現
これは、検出されたパターンが表示される形式を指します。これらの表現には、次のものが含まれる場合があります。−
- Rules
- Tables
- Charts
- Graphs
- デシジョンツリー
- Cubes