Алгоритмы регрессии - обзор
Введение в регрессию
Регрессия - еще один важный и широко используемый инструмент статистического и машинного обучения. Ключевая цель задач на основе регрессии - предсказать выходные метки или ответы, которые являются продолжением числовых значений для заданных входных данных. Результат будет основан на том, что модель узнала на этапе обучения. По сути, регрессионные модели используют функции входных данных (независимые переменные) и соответствующие им непрерывные числовые выходные значения (зависимые или выходные переменные) для изучения конкретной связи между входными данными и соответствующими выходными данными.
Типы регрессионных моделей
Модели регрессии бывают следующих двух типов -
Simple regression model - Это самая простая регрессионная модель, в которой прогнозы формируются на основе одного одномерного признака данных.
Multiple regression model - Как следует из названия, в этой регрессионной модели прогнозы формируются на основе множества характеристик данных.
Создание регрессора на Python
Модель регрессора в Python может быть построена так же, как мы построили классификатор. Scikit-learn, библиотека Python для машинного обучения также может быть использована для создания регрессора в Python.
В следующем примере мы будем строить базовую регрессионную модель, которая будет соответствовать линии данных, то есть линейному регрессору. Необходимые шаги для создания регрессора в Python следующие:
Шаг 1. Импорт необходимого пакета Python
Для создания регрессора с использованием scikit-learn нам необходимо импортировать его вместе с другими необходимыми пакетами. Мы можем импортировать, используя следующий скрипт -
import numpy as np
from sklearn import linear_model
import sklearn.metrics as sm
import matplotlib.pyplot as plt
Шаг 2. Импорт набора данных
После импорта необходимого пакета нам понадобится набор данных для построения модели прогнозирования регрессии. Мы можем импортировать его из набора данных sklearn или использовать другой в соответствии с нашими требованиями. Мы собираемся использовать наши сохраненные входные данные. Мы можем импортировать его с помощью следующего скрипта -
input = r'C:\linear.txt'
Далее нам нужно загрузить эти данные. Мы используем функцию np.loadtxt для его загрузки.
input_data = np.loadtxt(input, delimiter=',')
X, y = input_data[:, :-1], input_data[:, -1]
Шаг 3. Организация данных в наборы для обучения и тестирования
Поскольку нам нужно протестировать нашу модель на невидимых данных, мы разделим наш набор данных на две части: обучающий набор и тестовый набор. Следующая команда выполнит это -
training_samples = int(0.6 * len(X))
testing_samples = len(X) - num_training
X_train, y_train = X[:training_samples], y[:training_samples]
X_test, y_test = X[training_samples:], y[training_samples:]
Шаг 4: оценка и прогноз модели
После разделения данных на обучение и тестирование нам нужно построить модель. Для этой цели мы будем использовать функцию LineaRegression () Scikit-learn. Следующая команда создаст объект линейного регрессора.
reg_linear= linear_model.LinearRegression()
Затем обучите эту модель с обучающими образцами следующим образом:
reg_linear.fit(X_train, y_train)
Теперь, наконец, нам нужно сделать прогноз на основе данных тестирования.
y_test_pred = reg_linear.predict(X_test)
Шаг 5: график и визуализация
После предсказания мы можем построить и визуализировать его с помощью следующего скрипта -
Example
plt.scatter(X_test, y_test, color='red')
plt.plot(X_test, y_test_pred, color='black', linewidth=2)
plt.xticks(())
plt.yticks(())
plt.show()
Output
В приведенном выше выводе мы видим линию регрессии между точками данных.
Шаг 6: Расчет производительности
Мы также можем вычислить производительность нашей регрессионной модели с помощью различных показателей производительности следующим образом:
Example
print("Regressor model performance:")
print("Mean absolute error(MAE) =", round(sm.mean_absolute_error(y_test, y_test_pred), 2))
print("Mean squared error(MSE) =", round(sm.mean_squared_error(y_test, y_test_pred), 2))
print("Median absolute error =", round(sm.median_absolute_error(y_test, y_test_pred), 2))
print("Explain variance score =", round(sm.explained_variance_score(y_test, y_test_pred), 2))
print("R2 score =", round(sm.r2_score(y_test, y_test_pred), 2))
Output
Regressor model performance:
Mean absolute error(MAE) = 1.78
Mean squared error(MSE) = 3.89
Median absolute error = 2.01
Explain variance score = -0.09
R2 score = -0.09
Типы алгоритмов регрессии машинного обучения
Наиболее полезным и популярным алгоритмом регрессии ML является алгоритм линейной регрессии, который далее делится на два типа, а именно:
Алгоритм простой линейной регрессии
Алгоритм множественной линейной регрессии.
Мы обсудим это и реализуем на Python в следующей главе.
Приложения
Применения алгоритмов регрессии ML следующие:
Forecasting or Predictive analysis- Одно из важных применений регрессии - прогнозирование или прогнозный анализ. Например, мы можем прогнозировать ВВП, цены на нефть или, проще говоря, количественные данные, которые меняются с течением времени.
Optimization- Мы можем оптимизировать бизнес-процессы с помощью регрессии. Например, менеджер магазина может создать статистическую модель, чтобы понять, когда приходят клиенты.
Error correction- В бизнесе принятие правильного решения не менее важно, чем оптимизация бизнес-процесса. Регрессия может помочь нам принять правильное решение, а также исправить уже реализованное решение.
Economics- Это наиболее часто используемый инструмент в экономике. Мы можем использовать регрессию для прогнозирования предложения, спроса, потребления, инвестиций в запасы и т. Д.
Finance- Финансовая компания всегда заинтересована в минимизации портфеля рисков и хочет знать факторы, которые влияют на клиентов. Все это можно предсказать с помощью регрессионной модели.