ScikitLearn-異常検出

ここでは、Sklearnの異常検出とは何か、およびデータポイントの識別にどのように使用されるかについて学習します。

異常検出は、データセット内の残りのデータとうまく適合しないデータポイントを特定するために使用される手法です。不正検出、侵入検知、システムヘルスモニタリング、監視、予知保全など、ビジネスで多くのアプリケーションがあります。外れ値とも呼ばれる異常は、次の3つのカテゴリに分類できます-

  • Point anomalies −個々のデータインスタンスが残りのデータに対して異常であると見なされた場合に発生します。

  • Contextual anomalies−このような種類の異常は、コンテキスト固有です。これは、データインスタンスが特定のコンテキストで異常である場合に発生します。

  • Collective anomalies −関連するデータインスタンスのコレクションが、個々の値ではなくデータセット全体で異常である場合に発生します。

メソッド

つまり2つの方法 outlier detection そして novelty detection異常検出に使用できます。それらの違いを確認する必要があります。

外れ値の検出

トレーニングデータには、他のデータから遠く離れた外れ値が含まれています。このような外れ値は、観測値として定義されます。これが理由です。外れ値検出推定量は、逸脱した観測値を無視しながら、トレーニングデータが最も集中している領域に常に適合しようとします。教師なし異常検出とも呼ばれます。

ノベルティ検出

これは、トレーニングデータに含まれていない新しい観測で観測されていないパターンを検出することに関係しています。ここでは、トレーニングデータは外れ値によって汚染されていません。半教師あり異常検出とも呼ばれます。

scikit-learnが提供するMLツールのセットがあり、外れ値の検出と新規性の検出の両方に使用できます。これらのツールは、最初に次のようにfit()メソッドを使用して教師なしでデータからオブジェクト学習を実装します。

estimator.fit(X_train)

これで、新しい観測値は次のように並べ替えられます。 inliers (labeled 1) または outliers (labeled -1) 次のようにpredict()メソッドを使用する-

estimator.fit(X_test)

推定器は最初に生のスコアリング関数を計算し、次に予測メソッドはその生のスコアリング関数のしきい値を利用します。この生のスコアリング関数には、score_sample メソッドとによってしきい値を制御することができます contamination パラメータ。

定義することもできます decision_function 外れ値を負の値として定義し、外れ値を非負の値として定義するメソッド。

estimator.decision_function(X_test)

外れ値検出のためのSklearnアルゴリズム

楕円形のエンベロープとは何かを理解することから始めましょう。

楕円形のエンベロープのフィッティング

このアルゴリズムは、正規データがガウス分布などの既知の分布からのものであることを前提としています。外れ値を検出するために、Scikit-learnはという名前のオブジェクトを提供しますcovariance.EllipticEnvelop

このオブジェクトは、ロバストな共分散推定値をデータに適合させ、したがって、楕円を中央のデータポイントに適合させます。中央モード外のポイントは無視されます。

パラメーター

次の表は、によって使用されるパラメータで構成されています sklearn. covariance.EllipticEnvelop 方法−

シニア番号 パラメータと説明
1

store_precision −ブール値、オプション、デフォルト= True

推定精度が保存されている場合は指定できます。

2

assume_centered −ブール値、オプション、デフォルト= False

Falseに設定すると、FastMCDアルゴリズムを使用して、ロバストな位置と共分散を直接計算します。一方、Trueに設定すると、堅牢なロケーションと共分散のサポートが計算されます。

3

support_fraction −フロートイン(0.、1。)、オプション、デフォルト=なし

このパラメーターは、生のMCD推定値のサポートに含まれるポイントの割合をメソッドに指示します。

4

contamination −フロートイン(0.、1。)、オプション、デフォルト= 0.1

データセット内の外れ値の割合を提供します。

5

random_state − int、RandomStateインスタンスまたはNone、オプション、デフォルト= none

このパラメーターは、データのシャッフル中に使用される、生成された疑似乱数のシードを表します。以下はオプションです-

  • int −この場合、 random_state は、乱数ジェネレーターによって使用されるシードです。

  • RandomState instance−この場合、random_stateは乱数ジェネレーターです。

  • None −この場合、乱数ジェネレーターは、np.randomによって使用されるRandonStateインスタンスです。

属性

次の表は、によって使用される属性で構成されています sklearn. covariance.EllipticEnvelop 方法−

シニア番号 属性と説明
1

support_ −配列のような、shape(n_samples、)

これは、位置と形状のロバストな推定値を計算するために使用される観測のマスクを表します。

2

location_ −配列のような形状(n_features)

推定されたロバストな場所を返します。

3

covariance_ −配列のような形状(n_features、n_features)

推定されたロバストな共分散行列を返します。

4

precision_ −配列のような形状(n_features、n_features)

推定された疑似逆行列を返します。

5

offset_ −フロート

これは、生のスコアから決定関数を定義するために使用されます。 decision_function = score_samples -offset_

Implementation Example

import numpy as np^M
from sklearn.covariance import EllipticEnvelope^M
true_cov = np.array([[.5, .6],[.6, .4]])
X = np.random.RandomState(0).multivariate_normal(mean = [0, 0], cov=true_cov,size=500)
cov = EllipticEnvelope(random_state = 0).fit(X)^M
# Now we can use predict method. It will return 1 for an inlier and -1 for an outlier.
cov.predict([[0, 0],[2, 2]])

Output

array([ 1, -1])

隔離の森

高次元のデータセットの場合、外れ値を検出するための効率的な方法の1つは、ランダムフォレストを使用することです。scikit-learnは提供しますensemble.IsolationForest特徴をランダムに選択することによって観測値を分離する方法。その後、選択したフィーチャの最大値と最小値の間でランダムに値を選択します。

ここで、サンプルを分離するために必要な分割の数は、ルートノードから終了ノードまでのパスの長さに相当します。

パラメーター

次の表は、によって使用されるパラメータで構成されています sklearn. ensemble.IsolationForest 方法−

シニア番号 パラメータと説明
1

n_estimators − int、オプション、デフォルト= 100

これは、アンサンブル内の基本推定量の数を表します。

2

max_samples − intまたはfloat、オプション、デフォルト=“ auto”

これは、各基本推定量をトレーニングするためにXから抽出されるサンプルの数を表します。値としてintを選択すると、max_samplesサンプルが描画されます。値としてfloatを選択すると、max_samples ∗ .shape [0]サンプルが描画されます。また、値としてautoを選択すると、max_samples = min(256、n_samples)が描画されます。

3

support_fraction −フロートイン(0.、1。)、オプション、デフォルト=なし

このパラメーターは、生のMCD推定値のサポートに含まれるポイントの割合をメソッドに指示します。

4

contamination − autoまたはfloat、オプション、デフォルト= auto

データセット内の外れ値の割合を提供します。デフォルト、つまり自動に設定すると、元の論文と同様にしきい値が決定されます。フロートに設定すると、汚染の範囲は[0,0.5]の範囲になります。

5

random_state − int、RandomStateインスタンスまたはNone、オプション、デフォルト= none

このパラメーターは、データのシャッフル中に使用される、生成された疑似乱数のシードを表します。以下はオプションです-

  • int −この場合、 random_state は、乱数ジェネレーターによって使用されるシードです。

  • RandomState instance−この場合、random_stateは乱数ジェネレーターです。

  • None −この場合、乱数ジェネレーターは、np.randomによって使用されるRandonStateインスタンスです。

6

max_features − intまたはfloat、オプション(デフォルト= 1.0)

これは、各基本推定量をトレーニングするためにXから抽出される特徴の数を表します。値としてintを選択すると、max_features機能が描画されます。値としてfloatを選択すると、max_features * X.shape []サンプルが描画されます。

7

bootstrap −ブール値、オプション(デフォルト= False)

デフォルトのオプションはFalseです。これは、サンプリングが置換なしで実行されることを意味します。一方、Trueに設定されている場合は、個々のツリーが、置換でサンプリングされたトレーニングデータのランダムなサブセットに適合していることを意味します。

8

n_jobs − intまたはNone、オプション(デフォルト=なし)

並行して実行されるジョブの数を表します fit() そして predict() 両方の方法。

9

verbose − int、オプション(デフォルト= 0)

このパラメーターは、ツリー構築プロセスの冗長性を制御します。

10

warm_start −ブール、オプション(デフォルト= False)

warm_start = trueの場合、以前の呼び出しソリューションを再利用して適合させ、アンサンブルに推定量を追加できます。ただし、がfalseに設定されている場合は、まったく新しいフォレストを適合させる必要があります。

属性

次の表は、によって使用される属性で構成されています sklearn. ensemble.IsolationForest 方法−

シニア番号 属性と説明
1

estimators_ −DecisionTreeClassifierのリスト

適合したすべてのサブ推定量のコレクションを提供します。

2

max_samples_ −整数

使用された実際のサンプル数を提供します。

3

offset_ −フロート

これは、生のスコアから決定関数を定義するために使用されます。 decision_function = score_samples -offset_

Implementation Example

以下のPythonスクリプトは sklearn. ensemble.IsolationForest 与えられたデータに10本の木を合わせる方法

from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -2], [-3, -3], [-3, -4], [0, 0], [-50, 60]])
OUTDClf = IsolationForest(n_estimators = 10)
OUTDclf.fit(X)

Output

IsolationForest(
   behaviour = 'old', bootstrap = False, contamination='legacy',
   max_features = 1.0, max_samples = 'auto', n_estimators = 10, n_jobs=None,
   random_state = None, verbose = 0
)

局所外れ値因子

ローカル外れ値因子(LOF)アルゴリズムは、高次元データに対して外れ値検出を実行するためのもう1つの効率的なアルゴリズムです。scikit-learnは提供しますneighbors.LocalOutlierFactor観測値の異常度を反映して、局所外れ値因子と呼ばれるスコアを計算する方法。このアルゴリズムの主なロジックは、隣接するサンプルよりも密度が大幅に低いサンプルを検出することです。そのため、特定のデータポイントとその隣接データポイントの局所密度偏差を測定します。

パラメーター

次の表は、によって使用されるパラメータで構成されています sklearn. neighbors.LocalOutlierFactor 方法

シニア番号 パラメータと説明
1

n_neighbors − int、オプション、デフォルト= 20

これは、kneighborsクエリにデフォルトで使用されるネイバーの数を表します。の場合、すべてのサンプルが使用されます。

2

algorithm −オプション

最近傍の計算に使用するアルゴリズム。

  • ball_treeを選択すると、BallTreeアルゴリズムが使用されます。

  • kd_treeを選択すると、KDTreeアルゴリズムが使用されます。

  • bruteを選択すると、ブルートフォース検索アルゴリズムが使用されます。

  • autoを選択すると、fit()メソッドに渡した値に基づいて最も適切なアルゴリズムが決定されます。

3

leaf_size − int、オプション、デフォルト= 30

このパラメーターの値は、構築とクエリの速度に影響を与える可能性があります。また、ツリーを格納するために必要なメモリにも影響します。このパラメーターは、BallTreeまたはKdTreeアルゴリズムに渡されます。

4

contamination − autoまたはfloat、オプション、デフォルト= auto

データセット内の外れ値の割合を提供します。デフォルト、つまり自動に設定すると、元の論文と同様にしきい値が決定されます。フロートに設定すると、汚染の範囲は[0,0.5]の範囲になります。

5

metric −文字列または呼び出し可能、デフォルト

これは、距離の計算に使用されるメトリックを表します。

6

P − int、オプション(デフォルト= 2)

これは、ミンコフスキー計量のパラメーターです。P = 1は、manhattan_distance、つまりL1を使用することと同等ですが、P = 2は、euclidan_distance、つまりL2を使用することと同等です。

7

novelty −ブール値、(デフォルト= False)

デフォルトでは、LOFアルゴリズムは外れ値の検出に使用されますが、ノベルティ= trueに設定すると、ノベルティの検出に使用できます。

8

n_jobs − intまたはNone、オプション(デフォルト=なし)

これは、fit()メソッドとpredict()メソッドの両方で並行して実行されるジョブの数を表します。

属性

次の表は、によって使用される属性で構成されています sklearn.neighbors.LocalOutlierFactor 方法−

シニア番号 属性と説明
1

negative_outlier_factor_ − numpy配列、shape(n_samples、)

トレーニングサンプルの反対のLOFを提供します。

2

n_neighbors_ −整数

ネイバークエリに使用されるネイバーの実際の数を提供します。

3

offset_ −フロート

生のスコアからバイナリラベルを定義するために使用されます。

Implementation Example

以下に示すPythonスクリプトは sklearn.neighbors.LocalOutlierFactor データセットに対応する任意の配列からNeighborsClassifierクラスを構築するメソッド

from sklearn.neighbors import NearestNeighbors
samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
LOFneigh = NearestNeighbors(n_neighbors = 1, algorithm = "ball_tree",p=1)
LOFneigh.fit(samples)

Output

NearestNeighbors(
   algorithm = 'ball_tree', leaf_size = 30, metric='minkowski',
   metric_params = None, n_jobs = None, n_neighbors = 1, p = 1, radius = 1.0
)

Example

これで、次のpythonスクリプトを使用して、この構築された分類子から[0.5、1。、1.5]へのクローゼットポイントを尋ねることができます。

print(neigh.kneighbors([[.5, 1., 1.5]])

Output

(array([[1.7]]), array([[1]], dtype = int64))

ワンクラスSVM

Schölkopfらによって導入されたOne-ClassSVMは、教師なし外れ値検出です。また、高次元データで非常に効率的であり、高次元分布のサポートを推定します。それはで実装されていますSupport Vector Machines のモジュール Sklearn.svm.OneClassSVMオブジェクト。フロンティアを定義するには、カーネル(主にRBFが使用されます)とスカラーパラメーターが必要です。

理解を深めるために、データを svm.OneClassSVM オブジェクト-

from sklearn.svm import OneClassSVM
X = [[0], [0.89], [0.90], [0.91], [1]]
OSVMclf = OneClassSVM(gamma = 'scale').fit(X)

これで、入力データのscore_samplesを次のように取得できます。

OSVMclf.score_samples(X)

出力

array([1.12218594, 1.58645126, 1.58673086, 1.58645127, 1.55713767])