Машинное обучение с Python - подготовка данных

Введение

Алгоритмы машинного обучения полностью зависят от данных, потому что это наиболее важный аспект, который делает возможным обучение моделей. С другой стороны, если мы не сможем понять смысл этих данных, прежде чем передать их алгоритмам машинного обучения, машина будет бесполезна. Проще говоря, нам всегда нужно вводить правильные данные, то есть данные в правильном масштабе, формате и содержащие значимые функции для проблемы, которую мы хотим, чтобы машина решила.

Это делает подготовку данных наиболее важным шагом в процессе машинного обучения. Подготовку данных можно определить как процедуру, которая делает наш набор данных более подходящим для процесса машинного обучения.

Почему предварительная обработка данных?

После выбора необработанных данных для обучения машинного обучения наиболее важной задачей является предварительная обработка данных. В широком смысле предварительная обработка данных преобразует выбранные данные в форму, с которой мы можем работать или которую мы можем передать в алгоритмы машинного обучения. Нам всегда нужно предварительно обрабатывать наши данные, чтобы они соответствовали ожиданиям алгоритма машинного обучения.

Методы предварительной обработки данных

У нас есть следующие методы предварительной обработки данных, которые можно применить к набору данных для получения данных для алгоритмов ML:

Масштабирование

Скорее всего, наш набор данных состоит из атрибутов с разным масштабом, но мы не можем предоставить такие данные для алгоритма машинного обучения, поэтому требуется масштабирование. Изменение масштаба данных гарантирует, что атрибуты имеют одинаковый масштаб. Обычно атрибуты масштабируются в диапазоне от 0 до 1. Алгоритмы машинного обучения, такие как градиентный спуск и k-ближайших соседей, требуют масштабированных данных. Мы можем масштабировать данные с помощью класса MinMaxScaler библиотеки Python scikit-learn.

пример

В этом примере мы изменим масштаб данных набора данных Pima Indians Diabetes, который мы использовали ранее. Сначала будут загружены данные CSV (как это было сделано в предыдущих главах), а затем с помощью класса MinMaxScaler они будут масштабированы в диапазоне от 0 до 1.

Первые несколько строк следующего скрипта такие же, как мы писали в предыдущих главах при загрузке данных CSV.

from pandas import read_csv
from numpy import set_printoptions
from sklearn import preprocessing
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Теперь мы можем использовать класс MinMaxScaler для изменения масштаба данных в диапазоне от 0 до 1.

data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
data_rescaled = data_scaler.fit_transform(array)

Мы также можем суммировать данные для вывода по нашему выбору. Здесь мы устанавливаем точность равной 1 и показываем первые 10 строк вывода.

set_printoptions(precision=1)
print ("\nScaled data:\n", data_rescaled[0:10])

Вывод

Scaled data:
[
   [0.4 0.7 0.6 0.4 0.  0.5 0.2 0.5 1. ]
   [0.1 0.4 0.5 0.3 0.  0.4 0.1 0.2 0. ]
   [0.5 0.9 0.5 0.  0.  0.3 0.3 0.2 1. ]
   [0.1 0.4 0.5 0.2 0.1 0.4 0.  0.  0. ]
   [0.  0.7 0.3 0.4 0.2 0.6 0.9 0.2 1. ]
   [0.3 0.6 0.6 0.  0.  0.4 0.1 0.2 0. ]
   [0.2 0.4 0.4 0.3 0.1 0.5 0.1 0.1 1. ]
   [0.6 0.6 0.  0.  0.  0.5 0.  0.1 0. ]
   [0.1 1.  0.6 0.5 0.6 0.5 0.  0.5 1. ]
   [0.5 0.6 0.8 0.  0.  0.  0.1 0.6 1. ]
]

Из приведенного выше вывода все данные были масштабированы в диапазоне от 0 до 1.

Нормализация

Еще один полезный метод предварительной обработки данных - нормализация. Это используется для изменения масштаба каждой строки данных, чтобы иметь длину 1. Это в основном полезно в разреженном наборе данных, где у нас много нулей. Мы можем масштабировать данные с помощью класса Normalizer библиотеки Python scikit-learn.

Типы нормализации

В машинном обучении есть два типа методов предварительной обработки нормализации, а именно:

L1 нормализация

Его можно определить как метод нормализации, который изменяет значения набора данных таким образом, чтобы в каждой строке сумма абсолютных значений всегда была до 1. Это также называется наименьшими абсолютными отклонениями.

Example

В этом примере мы используем технику L1 Normalize для нормализации данных набора данных Pima Indians Diabetes, который мы использовали ранее. Сначала будут загружены данные CSV, а затем с помощью класса Normalizer они будут нормализованы.

Первые несколько строк следующего скрипта такие же, как мы писали в предыдущих главах при загрузке данных CSV.

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values

Теперь мы можем использовать класс Normalizer с L1 для нормализации данных.

Data_normalizer = Normalizer(norm='l1').fit(array)
Data_normalized = Data_normalizer.transform(array)

Мы также можем суммировать данные для вывода по нашему выбору. Здесь мы устанавливаем точность равной 2 и показываем первые 3 строки в выводе.

set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])

Output

Normalized data:
[
   [0.02 0.43 0.21 0.1  0. 0.1  0. 0.14 0. ]
   [0.   0.36 0.28 0.12 0. 0.11 0. 0.13 0. ]
   [0.03 0.59 0.21 0.   0. 0.07 0. 0.1  0. ]
]

L2 нормализация

Его можно определить как метод нормализации, который изменяет значения набора данных таким образом, чтобы в каждой строке сумма квадратов всегда была до 1. Это также называется методом наименьших квадратов.

Example

В этом примере мы используем технику нормализации L2 для нормализации данных набора данных диабета индейцев пима, который мы использовали ранее. Сначала будут загружены данные CSV (как это делалось в предыдущих главах), а затем с помощью класса Normalizer они будут нормализованы.

Первые несколько строк следующего скрипта такие же, как мы писали в предыдущих главах при загрузке данных CSV.

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values

Теперь мы можем использовать класс Normalizer с L1 для нормализации данных.

Data_normalizer = Normalizer(norm='l2').fit(array)
Data_normalized = Data_normalizer.transform(array)

Мы также можем суммировать данные для вывода по нашему выбору. Здесь мы устанавливаем точность равной 2 и показываем первые 3 строки в выводе.

set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])

Output

Normalized data:
[
   [0.03 0.83 0.4  0.2  0. 0.19 0. 0.28 0.01]
   [0.01 0.72 0.56 0.24 0. 0.22 0. 0.26 0.  ]
   [0.04 0.92 0.32 0.   0. 0.12 0. 0.16 0.01]
]

Бинаризация

Как следует из названия, это метод, с помощью которого мы можем сделать наши данные двоичными. Мы можем использовать двоичный порог, чтобы сделать наши данные двоичными. Значения выше этого порогового значения будут преобразованы в 1, а значения ниже этого порога будут преобразованы в 0. Например, если мы выберем пороговое значение = 0,5, тогда значение набора данных выше него станет 1, а ниже этого станет 0. То есть почему мы можем это назватьbinarizing данные или thresholdingданные. Этот метод полезен, когда у нас есть вероятности в нашем наборе данных и мы хотим преобразовать их в четкие значения.

Мы можем преобразовать данные в двоичную форму с помощью класса Binarizer библиотеки Python scikit-learn.

пример

В этом примере мы изменим масштаб данных набора данных диабета индейцев пима, который мы использовали ранее. Сначала будут загружены данные CSV, а затем с помощью класса Binarizer они будут преобразованы в двоичные значения, т.е. 0 и 1 в зависимости от порогового значения. Мы принимаем 0,5 в качестве порогового значения.

Первые несколько строк следующего скрипта такие же, как мы писали в предыдущих главах при загрузке данных CSV.

from pandas import read_csv
from sklearn.preprocessing import Binarizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Теперь мы можем использовать класс Binarize для преобразования данных в двоичные значения.

binarizer = Binarizer(threshold=0.5).fit(array)
Data_binarized = binarizer.transform(array)

Здесь мы показываем первые 5 строк вывода.

print ("\nBinary data:\n", Data_binarized [0:5])

Вывод

Binary data:
[
   [1. 1. 1. 1. 0. 1. 1. 1. 1.]
   [1. 1. 1. 1. 0. 1. 0. 1. 0.]
   [1. 1. 1. 0. 0. 1. 1. 1. 1.]
   [1. 1. 1. 1. 1. 1. 0. 1. 0.]
   [0. 1. 1. 1. 1. 1. 1. 1. 1.]
]

Стандартизация

Еще один полезный метод предварительной обработки данных, который в основном используется для преобразования атрибутов данных с распределением Гаусса. Он отличает среднее значение и SD (стандартное отклонение) от стандартного распределения Гаусса со средним значением 0 и SD, равным 1. Этот метод полезен в алгоритмах машинного обучения, таких как линейная регрессия, логистическая регрессия, которая предполагает гауссово распределение во входном наборе данных и дает лучший результаты с измененными данными. Мы можем стандартизировать данные (среднее значение = 0 и SD = 1) с помощью класса StandardScaler библиотеки Python scikit-learn.

пример

В этом примере мы изменим масштаб данных набора данных диабета индейцев пима, который мы использовали ранее. Сначала будут загружены данные CSV, а затем с помощью класса StandardScaler они будут преобразованы в распределение по Гауссу со средним значением = 0 и SD = 1.

Первые несколько строк следующего скрипта такие же, как мы писали в предыдущих главах при загрузке данных CSV.

from sklearn.preprocessing import StandardScaler
from pandas import read_csv
from numpy import set_printoptions
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Теперь мы можем использовать класс StandardScaler для изменения масштаба данных.

data_scaler = StandardScaler().fit(array)
data_rescaled = data_scaler.transform(array)

Мы также можем суммировать данные для вывода по нашему выбору. Здесь мы устанавливаем точность равной 2 и показываем первые 5 строк на выходе.

set_printoptions(precision=2)
print ("\nRescaled data:\n", data_rescaled [0:5])

Вывод

Rescaled data:
[
   [ 0.64  0.85  0.15  0.91 -0.69  0.2   0.47  1.43  1.37]
   [-0.84 -1.12 -0.16  0.53 -0.69 -0.68 -0.37 -0.19 -0.73]
   [ 1.23  1.94 -0.26 -1.29 -0.69 -1.1   0.6  -0.11  1.37]
   [-0.84 -1.   -0.16  0.15  0.12 -0.49 -0.92 -1.04 -0.73]
   [-1.14  0.5  -1.5   0.91  0.77  1.41  5.48 -0.02  1.37]
]

Маркировка данных

Мы обсудили важность хороших данных для алгоритмов машинного обучения, а также некоторые методы предварительной обработки данных перед их отправкой в ​​алгоритмы машинного обучения. Еще один аспект в этом отношении - разметка данных. Также очень важно отправлять данные в алгоритмы машинного обучения с правильной маркировкой. Например, в случае проблем с классификацией на данных имеется множество меток в виде слов, чисел и т. Д.

Что такое кодирование меток?

Большинство функций sklearn ожидают, что данные будут иметь числовые метки, а не слова. Следовательно, нам необходимо преобразовать такие метки в числовые. Этот процесс называется кодированием метки. Мы можем выполнить кодирование меток данных с помощью функции LabelEncoder () библиотеки Python scikit-learn.

пример

В следующем примере скрипт Python выполнит кодирование меток.

Сначала импортируйте необходимые библиотеки Python следующим образом:

import numpy as np
from sklearn import preprocessing

Теперь нам нужно предоставить метки ввода следующим образом:

input_labels = ['red','black','red','green','black','yellow','white']

Следующая строка кода создаст кодировщик меток и обучит его.

encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)

Следующие строки скрипта будут проверять производительность, кодируя случайный упорядоченный список -

test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
print("Encoded values =", list(encoded_values))
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)

Мы можем получить список закодированных значений с помощью следующего скрипта Python -

print("\nEncoded values =", encoded_values)
print("\nDecoded labels =", list(decoded_list))

Вывод

Labels = ['green', 'red', 'black']
Encoded values = [1, 2, 0]
Encoded values = [3, 0, 4, 1]
Decoded labels = ['white', 'black', 'yellow', 'green']