Анализ данных измерений программного обеспечения
После сбора соответствующих данных мы должны проанализировать их соответствующим образом. При выборе метода анализа необходимо учитывать три основных момента.
- Природа данных
- Цель эксперимента
- Соображения по дизайну
Природа данных
Чтобы проанализировать данные, мы должны также посмотреть на более широкую совокупность, представленную данными, а также на распределение этих данных.
Выборка, популяция и распределение данных
Выборка - это процесс выбора набора данных из большой совокупности. Статистика выборки описывает и суммирует меры, полученные от группы подопытных.
Параметры популяции представляют собой значения, которые были бы получены, если бы были измерены все возможные субъекты.
Популяцию или выборку можно описать с помощью показателей центральной тенденции, таких как среднее значение, медиана и мода, и показателей дисперсии, таких как дисперсия и стандартное отклонение. Многие наборы данных распределяются нормально, как показано на следующем графике.
Как показано выше, данные будут равномерно распределены относительно среднего значения. что является важной характеристикой нормального распределения.
Существуют и другие распределения, в которых данные искажены, так что на одной стороне среднего больше точек данных, чем на другой. Например: если большая часть данных присутствует в левой части среднего, то можно сказать, что распределение смещено влево.
Цель эксперимента
Обычно эксперименты проводятся -
- Чтобы подтвердить теорию
- Чтобы изучить отношения
Для достижения каждого из них цель должна быть формально выражена в терминах гипотезы, а анализ должен непосредственно касаться гипотезы.
Чтобы подтвердить теорию
Расследование должно быть направлено на выяснение истинности теории. Теория обычно утверждает, что использование определенного метода, инструмента или техники оказывает определенное влияние на испытуемых, делая его в некотором смысле лучше, чем в другом.
Следует учитывать два случая данных: normal data и non-normal data.
Если данные взяты из нормального распределения и есть две группы для сравнения, тогда для анализа можно использовать t-критерий Стьюдента. Если необходимо сравнить более двух групп, можно использовать общий тест дисперсионного анализа, называемый F-статистикой.
Если данные не соответствуют норме, то их можно проанализировать с помощью теста Краскала-Уоллиса, ранжируя их.
Чтобы изучить отношения
Исследования предназначены для определения взаимосвязи между точками данных, описывающими одну переменную или несколько переменных.
Есть три метода, чтобы ответить на вопросы о взаимосвязи: ящичные диаграммы, диаграммы разброса и корреляционный анализ.
А box plot может представлять собой сводку диапазона набора данных.
А scatter plot представляет собой взаимосвязь между двумя переменными.
Correlation analysis использует статистические методы, чтобы подтвердить, существует ли истинная связь между двумя атрибутами.
Для нормально распределенных значений используйте Pearson Correlation Coefficient чтобы проверить, сильно ли коррелированы две переменные.
Для нестандартных данных ранжируйте данные и используйте Spearman Rank Correlation Coefficientкак мера ассоциации. Еще одна мера для ненормальных данных - этоKendall robust correlation coefficient, который исследует взаимосвязь между парами точек данных и может определить частичную корреляцию.
Если рейтинг содержит большое количество связанных значений, chi-squared testв таблице непредвиденных обстоятельств может использоваться для проверки связи между переменными. Так же,linear regression можно использовать для создания уравнения, описывающего взаимосвязь между переменными.
Для более чем двух переменных multivariate regression может быть использован.
Соображения по дизайну
При выборе методов анализа необходимо учитывать план расследования. В то же время сложность анализа может повлиять на выбранный дизайн. Несколько групп используют F-статистику, а не T-тест Стьюдента для двух групп.
Для сложных факторных планов с более чем двумя факторами необходим более сложный тест ассоциации и значимости.
Статистические методы могут использоваться для учета влияния одного набора переменных на другие или для компенсации эффектов времени или обучения.