Analysieren von Software-Messdaten
Nachdem wir relevante Daten gesammelt haben, müssen wir sie in geeigneter Weise analysieren. Bei der Auswahl der Analysetechnik sind drei Hauptaspekte zu berücksichtigen.
- Die Art der Daten
- Der Zweck des Experiments
- Entwurfsüberlegungen
Die Natur der Daten
Um die Daten zu analysieren, müssen wir auch die größere Population betrachten, die durch die Daten dargestellt wird, sowie die Verteilung dieser Daten.
Stichprobe, Grundgesamtheit und Datenverteilung
Bei der Stichprobe wird ein Datensatz aus einer großen Population ausgewählt. Die Stichprobenstatistik beschreibt und fasst die Maßnahmen einer Gruppe von Versuchspersonen zusammen.
Populationsparameter stellen die Werte dar, die erhalten würden, wenn alle möglichen Probanden gemessen würden.
Die Population oder Stichprobe kann durch die Maße der zentralen Tendenz wie Mittelwert, Median und Modus sowie die Maße der Streuung wie Varianz und Standardabweichung beschrieben werden. Viele Datensätze werden normal verteilt, wie in der folgenden Grafik dargestellt.
Wie oben gezeigt, werden die Daten gleichmäßig über den Mittelwert verteilt. Das sind die wesentlichen Merkmale einer Normalverteilung.
Es gibt auch andere Verteilungen, bei denen die Daten so verzerrt sind, dass sich auf einer Seite des Mittelwerts mehr Datenpunkte befinden als auf der anderen. Beispiel: Wenn die meisten Daten auf der linken Seite des Mittelwerts vorhanden sind, können wir sagen, dass die Verteilung nach links verschoben ist.
Der Zweck des Experiments
Normalerweise werden Experimente durchgeführt -
- Eine Theorie bestätigen
- Eine Beziehung erkunden
Um jedes dieser Ziele zu erreichen, sollte das Ziel formell in Form der Hypothese ausgedrückt werden, und die Analyse muss sich direkt mit der Hypothese befassen.
Eine Theorie bestätigen
Die Untersuchung muss darauf ausgelegt sein, die Wahrheit einer Theorie zu erforschen. Die Theorie besagt normalerweise, dass die Verwendung einer bestimmten Methode, eines bestimmten Werkzeugs oder einer bestimmten Technik einen bestimmten Effekt auf die Probanden hat und sie auf irgendeine Weise besser macht als auf eine andere.
Es sind zwei Fälle von Daten zu berücksichtigen: normal data und non-normal data.
Wenn die Daten aus einer Normalverteilung stammen und zwei Gruppen zu vergleichen sind, kann der t-Test des Schülers zur Analyse verwendet werden. Wenn mehr als zwei Gruppen verglichen werden müssen, kann eine allgemeine Varianzanalyse mit der Bezeichnung F-Statistik verwendet werden.
Wenn die Daten nicht normal sind, können die Daten mithilfe des Kruskal-Wallis-Tests analysiert werden, indem sie eingestuft werden.
Eine Beziehung erkunden
Untersuchungen dienen dazu, die Beziehung zwischen Datenpunkten zu bestimmen, die eine Variable oder mehrere Variablen beschreiben.
Es gibt drei Techniken, um die Fragen zu einer Beziehung zu beantworten: Box-Plots, Streudiagramme und Korrelationsanalyse.
EIN box plot kann die Zusammenfassung des Bereichs eines Datensatzes darstellen.
EIN scatter plot repräsentiert die Beziehung zwischen zwei Variablen.
Correlation analysis verwendet statistische Methoden, um zu bestätigen, ob zwischen zwei Attributen eine echte Beziehung besteht.
Verwenden Sie für normalverteilte Werte Pearson Correlation Coefficient um zu überprüfen, ob die beiden Variablen stark korreliert sind oder nicht.
Ordnen Sie die Daten für nicht normale Daten ein und verwenden Sie die Spearman Rank Correlation Coefficientals Maß für die Assoziation. Ein weiteres Maß für nicht normale Daten ist dasKendall robust correlation coefficient, der die Beziehung zwischen Datenpunktpaaren untersucht und eine partielle Korrelation identifizieren kann.
Wenn das Ranking eine große Anzahl gebundener Werte enthält, a chi-squared testAuf einer Kontingenztabelle kann die Zuordnung zwischen den Variablen getestet werden. Ähnlich,linear regression kann verwendet werden, um eine Gleichung zu generieren, um die Beziehung zwischen den Variablen zu beschreiben.
Für mehr als zwei Variablen gilt multivariate regression kann verwendet werden.
Entwurfsüberlegungen
Das Design der Untersuchung muss bei der Auswahl der Analysetechniken berücksichtigt werden. Gleichzeitig kann die Komplexität der Analyse das gewählte Design beeinflussen. Mehrere Gruppen verwenden F-Statistiken anstelle des Student-T-Tests mit zwei Gruppen.
Für komplexe faktorielle Designs mit mehr als zwei Faktoren ist ein differenzierterer Test der Assoziation und Signifikanz erforderlich.
Statistische Techniken können verwendet werden, um die Auswirkung eines Satzes von Variablen auf andere zu berücksichtigen oder um das Timing oder die Lerneffekte zu kompensieren.