ML - Понимание данных со статистикой
Введение
При работе с проектами машинного обучения мы обычно игнорируем две наиболее важные части, которые называются mathematics и data. Это потому, что мы знаем, что машинное обучение - это подход, основанный на данных, и наша модель машинного обучения будет давать только такие хорошие или плохие результаты, как предоставленные нами данные.
В предыдущей главе мы обсудили, как мы можем загрузить данные CSV в наш проект машинного обучения, но было бы хорошо понять данные перед их загрузкой. Мы можем понимать данные двумя способами: с помощью статистики и с помощью визуализации.
В этой главе с помощью следующих рецептов Python мы собираемся понять данные машинного обучения со статистикой.
Просмотр необработанных данных
Самый первый рецепт - посмотреть на ваши необработанные данные. Важно смотреть на необработанные данные, потому что понимание, которое мы получим после просмотра необработанных данных, повысит наши шансы на лучшую предварительную обработку, а также обработку данных для проектов машинного обучения.
Ниже приведен сценарий Python, реализованный с использованием функции head () в Pandas DataFrame в наборе данных о диабете индейцев пима, чтобы просмотреть первые 50 строк, чтобы лучше понять их.
пример
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
print(data.head(50))
Вывод
preg plas pres skin test mass pedi age class
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1
5 5 116 74 0 0 25.6 0.201 30 0
6 3 78 50 32 88 31.0 0.248 26 1
7 10 115 0 0 0 35.3 0.134 29 0
8 2 197 70 45 543 30.5 0.158 53 1
9 8 125 96 0 0 0.0 0.232 54 1
10 4 110 92 0 0 37.6 0.191 30 0
11 10 168 74 0 0 38.0 0.537 34 1
12 10 139 80 0 0 27.1 1.441 57 0
13 1 189 60 23 846 30.1 0.398 59 1
14 5 166 72 19 175 25.8 0.587 51 1
15 7 100 0 0 0 30.0 0.484 32 1
16 0 118 84 47 230 45.8 0.551 31 1
17 7 107 74 0 0 29.6 0.254 31 1
18 1 103 30 38 83 43.3 0.183 33 0
19 1 115 70 30 96 34.6 0.529 32 1
20 3 126 88 41 235 39.3 0.704 27 0
21 8 99 84 0 0 35.4 0.388 50 0
22 7 196 90 0 0 39.8 0.451 41 1
23 9 119 80 35 0 29.0 0.263 29 1
24 11 143 94 33 146 36.6 0.254 51 1
25 10 125 70 26 115 31.1 0.205 41 1
26 7 147 76 0 0 39.4 0.257 43 1
27 1 97 66 15 140 23.2 0.487 22 0
28 13 145 82 19 110 22.2 0.245 57 0
29 5 117 92 0 0 34.1 0.337 38 0
30 5 109 75 26 0 36.0 0.546 60 0
31 3 158 76 36 245 31.6 0.851 28 1
32 3 88 58 11 54 24.8 0.267 22 0
33 6 92 92 0 0 19.9 0.188 28 0
34 10 122 78 31 0 27.6 0.512 45 0
35 4 103 60 33 192 24.0 0.966 33 0
36 11 138 76 0 0 33.2 0.420 35 0
37 9 102 76 37 0 32.9 0.665 46 1
38 2 90 68 42 0 38.2 0.503 27 1
39 4 111 72 47 207 37.1 1.390 56 1
40 3 180 64 25 70 34.0 0.271 26 0
41 7 133 84 0 0 40.2 0.696 37 0
42 7 106 92 18 0 22.7 0.235 48 0
43 9 171 110 24 240 45.4 0.721 54 1
44 7 159 64 0 0 27.4 0.294 40 0
45 0 180 66 39 0 42.0 1.893 25 1
46 1 146 56 0 0 29.7 0.564 29 0
47 2 71 70 27 0 28.0 0.586 22 0
48 7 103 66 32 0 39.1 0.344 31 1
49 7 105 0 0 0 0.0 0.305 24 0
Из приведенного выше вывода видно, что в первом столбце указан номер строки, который может быть очень полезен для ссылки на конкретное наблюдение.
Проверка размеров данных
Всегда полезно знать, сколько данных в виде строк и столбцов у нас есть для нашего проекта ML. Причины -
Предположим, что если у нас слишком много строк и столбцов, то для запуска алгоритма и обучения модели потребуется много времени.
Предположим, что если у нас будет слишком мало строк и столбцов, у нас не будет достаточно данных для хорошего обучения модели.
Ниже приведен сценарий Python, реализованный путем печати свойства формы во фрейме данных Pandas. Мы собираемся реализовать его на наборе данных iris, чтобы получить в нем общее количество строк и столбцов.
пример
from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.shape)
Вывод
(150, 4)
Из вывода легко заметить, что набор данных iris, который мы собираемся использовать, имеет 150 строк и 4 столбца.
Получение типа данных каждого атрибута
Еще одна хорошая практика - знать тип данных каждого атрибута. Причина в том, что в соответствии с требованиями иногда нам может потребоваться преобразовать один тип данных в другой. Например, нам может потребоваться преобразовать строку в числа с плавающей запятой или int для представления категориальных или порядковых значений. Мы можем иметь представление о типе данных атрибута, глядя на необработанные данные, но другой способ - использовать свойство dtypes Pandas DataFrame. С помощью свойства dtypes мы можем категоризировать каждый тип данных атрибутов. Это можно понять с помощью следующего скрипта Python -
пример
from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.dtypes)
Вывод
sepal_length float64
sepal_width float64
petal_length float64
petal_width float64
dtype: object
Из вышеприведенного вывода мы можем легко получить типы данных каждого атрибута.
Статистическая сводка данных
Мы обсудили рецепт Python для получения формы, то есть количества строк и столбцов данных, но много раз нам нужно просматривать сводки на основе этой формы данных. Это можно сделать с помощью функции describe () в Pandas DataFrame, которая дополнительно предоставляет следующие 8 статистических свойств каждого и каждого атрибута данных:
- Count
- Mean
- Среднеквадратичное отклонение
- Минимальное значение
- Максимальное значение
- 25%
- Медиана, т.е. 50%
- 75%
пример
from pandas import read_csv
from pandas import set_option
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
set_option('display.width', 100)
set_option('precision', 2)
print(data.shape)
print(data.describe())
Вывод
(768, 9)
preg plas pres skin test mass pedi age class
count 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00
mean 3.85 120.89 69.11 20.54 79.80 31.99 0.47 33.24 0.35
std 3.37 31.97 19.36 15.95 115.24 7.88 0.33 11.76 0.48
min 0.00 0.00 0.00 0.00 0.00 0.00 0.08 21.00 0.00
25% 1.00 99.00 62.00 0.00 0.00 27.30 0.24 24.00 0.00
50% 3.00 117.00 72.00 23.00 30.50 32.00 0.37 29.00 0.00
75% 6.00 140.25 80.00 32.00 127.25 36.60 0.63 41.00 1.00
max 17.00 199.00 122.00 99.00 846.00 67.10 2.42 81.00 1.00
Из вышеприведенного вывода мы можем наблюдать статистическую сводку данных набора данных Pima Indian Diabetes вместе с формой данных.
Обзор распределения классов
Статистика распределения классов полезна в задачах классификации, где нам нужно знать баланс значений классов. Важно знать распределение значений классов, потому что, если у нас очень несбалансированное распределение классов, то есть один класс имеет гораздо больше наблюдений, чем другой класс, тогда ему может потребоваться особая обработка на этапе подготовки данных нашего проекта ML. Мы можем легко получить распределение классов в Python с помощью Pandas DataFrame.
пример
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
count_class = data.groupby('class').size()
print(count_class)
Вывод
Class
0 500
1 268
dtype: int64
Из приведенного выше вывода ясно видно, что количество наблюдений с классом 0 почти вдвое превышает количество наблюдений с классом 1.
Обзор корреляции между атрибутами
Связь между двумя переменными называется корреляцией. В статистике наиболее распространенным методом вычисления корреляции является коэффициент корреляции Пирсона. Он может иметь три следующих значения:
Coefficient value = 1 - Он представляет собой полный positive корреляция между переменными.
Coefficient value = -1 - Он представляет собой полный negative корреляция между переменными.
Coefficient value = 0 - Он представляет no корреляция вообще между переменными.
Для нас всегда полезно просматривать попарные корреляции атрибутов в нашем наборе данных, прежде чем использовать его в проекте машинного обучения, потому что некоторые алгоритмы машинного обучения, такие как линейная регрессия и логистическая регрессия, будут плохо работать, если у нас есть сильно коррелированные атрибуты. В Python мы можем легко вычислить корреляционную матрицу атрибутов набора данных с помощью функции corr () в Pandas DataFrame.
пример
from pandas import read_csv
from pandas import set_option
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
set_option('display.width', 100)
set_option('precision', 2)
correlations = data.corr(method='pearson')
print(correlations)
Вывод
preg plas pres skin test mass pedi age class
preg 1.00 0.13 0.14 -0.08 -0.07 0.02 -0.03 0.54 0.22
plas 0.13 1.00 0.15 0.06 0.33 0.22 0.14 0.26 0.47
pres 0.14 0.15 1.00 0.21 0.09 0.28 0.04 0.24 0.07
skin -0.08 0.06 0.21 1.00 0.44 0.39 0.18 -0.11 0.07
test -0.07 0.33 0.09 0.44 1.00 0.20 0.19 -0.04 0.13
mass 0.02 0.22 0.28 0.39 0.20 1.00 0.14 0.04 0.29
pedi -0.03 0.14 0.04 0.18 0.19 0.14 1.00 0.03 0.17
age 0.54 0.26 0.24 -0.11 -0.04 0.04 0.03 1.00 0.24
class 0.22 0.47 0.07 0.07 0.13 0.29 0.17 0.24 1.00
Матрица в приведенных выше выходных данных дает корреляцию между всеми парами атрибутов в наборе данных.
Анализ перекоса распределения атрибутов
Асимметрия может быть определена как распределение, которое предполагается гауссовым, но выглядит искаженным или смещенным в том или ином направлении, либо влево, либо вправо. Проверка асимметрии атрибутов является одной из важных задач по следующим причинам:
Наличие асимметрии данных требует исправления на этапе подготовки данных, чтобы мы могли получить большую точность от нашей модели.
Большинство алгоритмов машинного обучения предполагает, что данные имеют гауссово распределение, то есть нормальное или криволинейное.
В Python мы можем легко вычислить перекос каждого атрибута, используя функцию skew () в Pandas DataFrame.
пример
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
print(data.skew())
Вывод
preg 0.90
plas 0.17
pres -1.84
skin 0.11
test 2.27
mass -0.43
pedi 1.92
age 1.13
class 0.64
dtype: float64
Из вышеприведенного вывода можно наблюдать положительный или отрицательный перекос. Если значение ближе к нулю, то перекос меньше.