ビッグデータ分析-問題の定義

このチュートリアルを通じて、プロジェクトを開発します。このチュートリアルの後続の各章では、ミニプロジェクトセクションのより大きなプロジェクトの一部を扱います。これは、実際の問題への露出を提供する応用チュートリアルセクションであると考えられています。この場合、プロジェクトの問題定義から始めます。

プロジェクトの説明

このプロジェクトの目的は、履歴書（CV）テキストを入力として使用して、人々の時給を予測する機械学習モデルを開発することです。

上で定義したフレームワークを使用すると、問題を簡単に定義できます。X = {x ₁、x ₂、…、x _n }をユーザーのCVとして定義できます。ここで、各機能は、可能な限り簡単な方法で、この単語が表示される回数にすることができます。次に、応答は実際に評価されます。私たちは、個人の時給をドルで予測しようとしています。

これらの2つの考慮事項は、提示された問題が教師あり回帰アルゴリズムで解決できると結論付けるのに十分です。

問題の定義

Problem Definitionおそらく、ビッグデータ分析パイプラインで最も複雑で無視されがちな段階の1つです。データ製品が解決する問題を定義するには、経験が必須です。ほとんどのデータサイエンティスト志願者は、この段階でほとんどまたはまったく経験がありません。

ほとんどのビッグデータの問題は、次の方法で分類できます-

教師あり分類
教師あり回帰
教師なし学習
ランク付けを学ぶ

ここで、これら4つの概念について詳しく学びましょう。

教師あり分類

機能の行列所与X = {X ₁とx ₂、...、xは_N }我々はとして定義され、異なるクラス予測するモデルMを開発Y = {C ₁、C ₂、...、C _N }を。例：保険会社の顧客のトランザクションデータが与えられると、クライアントが解約するかどうかを予測するモデルを開発することができます。後者はバイナリ分類の問題であり、チャーンとチャーンではない2つのクラスまたはターゲット変数があります。

他の問題には、複数のクラスの予測が含まれます。数字認識を行うことに関心がある可能性があるため、応答ベクトルは次のように定義されます。y= {0、1、2、3、4、5、6、7、8、9}、最先端のモデルは畳み込みニューラルネットワークであり、特徴のマトリックスは画像のピクセルとして定義されます。

教師あり回帰

この場合、問題の定義は前の例とかなり似ています。違いは応答に依存します。回帰問題、応答y∈ℜでは、これは応答が実数値であることを意味します。たとえば、履歴書のコーパスが与えられた個人の時給を予測するモデルを開発できます。

教師なし学習

経営陣はしばしば新しい洞察を渇望しています。セグメンテーションモデルは、マーケティング部門がさまざまなセグメントの製品を開発するために、この洞察を提供できます。アルゴリズムを考えるのではなく、セグメンテーションモデルを開発するための優れたアプローチは、必要なセグメンテーションに関連する機能を選択することです。

たとえば、電気通信会社では、携帯電話の使用状況によってクライアントをセグメント化するのは興味深いことです。これには、セグメンテーションの目的とは関係のない機能を無視し、関係する機能のみを含めることが含まれます。この場合、これは、1か月に使用されるSMSの数、インバウンドとアウトバウンドの分数などの機能を選択することになります。

ランク付けを学ぶ

この問題は回帰問題と見なすことができますが、特定の特性があり、別の処理に値します。問題は、クエリを指定して最も関連性の高い順序を見つけようとするドキュメントのコレクションを指定することです。教師あり学習アルゴリズムを開発するには、クエリを指定して、順序付けの関連性にラベルを付ける必要があります。

教師あり学習アルゴリズムを開発するには、トレーニングデータにラベルを付ける必要があることに注意してください。これは、たとえば画像から数字を認識するモデルをトレーニングするには、かなりの量の例に手作業でラベルを付ける必要があることを意味します。このプロセスを高速化できるWebサービスがあり、Amazon MechanicalTurkなどのこのタスクに一般的に使用されています。学習アルゴリズムは、より多くのデータが提供されるとパフォーマンスが向上することが証明されているため、教師あり学習では、適切な量の例にラベルを付けることが事実上必須です。