ソフトウェア測定データの分析

関連データを収集した後、適切な方法で分析する必要があります。分析手法を選択する際に考慮すべき3つの主要な項目があります。

  • データの性質
  • 実験の目的
  • 設計上の考慮事項

データの性質

データを分析するには、データによって表されるより大きな母集団と、そのデータの分布も調べる必要があります。

サンプリング、母集団、およびデータ分布

サンプリングは、大規模な母集団からデータのセットを選択するプロセスです。サンプル統計は、実験対象のグループから得られた測定値を記述および要約します。

母集団パラメータは、すべての可能な被験者が測定された場合に得られる値を表します。

母集団または標本は、平均、中央値、最頻値などの中心傾向の測定値と、分散や標準偏差などの分散の測定値によって記述できます。次のグラフに示すように、多くのデータセットが正規分布しています。

上に示したように、データは平均値について均等に分散されます。これは、正規分布の重要な特性です。

他の分布も存在し、データが歪んでいるため、平均の片側に他の側よりも多くのデータポイントがあります。例:ほとんどのデータが平均の左側に存在する場合、分布は左に偏っていると言えます。

実験の目的

通常、実験は行われます-

  • 理論を確認するには
  • 関係を探るには

これらのそれぞれを達成するために、目的は仮説の観点から正式に表現されるべきであり、分析は仮説に直接対処しなければなりません。

理論を確認するには

調査は、理論の真実を探求するように設計されなければなりません。理論は通常、特定の方法、ツール、または技法の使用が対象に特定の影響を及ぼし、ある意味で他の方法よりも優れていると述べています。

考慮すべきデータには2つのケースがあります。 normal data そして non-normal data

データが正規分布からのものであり、比較する2つのグループがある場合、スチューデントのt検定を分析に使用できます。比較するグループが3つ以上ある場合は、F統計と呼ばれる一般的な分散分析を使用できます。

データが正規でない場合は、クラスカル・ウォリス検定を使用してランク付けすることでデータを分析できます。

関係を探るには

調査は、1つまたは複数の変数を表すデータポイント間の関係を決定するように設計されています。

関係に関する質問に答えるには、箱ひげ図、散布図、相関分析の3つの手法があります。

  • A box plot データセットの範囲の要約を表すことができます。

  • A scatter plot 2つの変数間の関係を表します。

  • Correlation analysis 統計的手法を使用して、2つの属性間に真の関係があるかどうかを確認します。

    • 正規分布の値の場合は、 Pearson Correlation Coefficient 2つの変数が高度に相関しているかどうかを確認します。

    • 非正規データの場合、データをランク付けし、 Spearman Rank Correlation Coefficient連想の尺度として。非正規データのもう1つの指標は、Kendall robust correlation coefficient、データポイントのペア間の関係を調査し、部分的な相関関係を特定できます。

ランキングに多数の同値が含まれている場合、 chi-squared test分割表では、変数間の関連付けをテストするために使用できます。同様に、linear regression 変数間の関係を記述する方程式を生成するために使用できます。

3つ以上の変数の場合、 multivariate regression に使える。

設計上の考慮事項

分析手法を選択する際には、調査の設計を考慮する必要があります。同時に、分析の複雑さが選択した設計に影響を与える可能性があります。複数のグループは、2つのグループでのスチューデントのT検定ではなく、F統計を使用します。

3つ以上の要因を含む複雑な要因計画の場合、関連性と重要性のより高度なテストが必要です。

統計的手法を使用して、ある変数セットが他の変数に与える影響を説明したり、タイミングや学習効果を補正したりできます。