Логистическая регрессия в Python - разделение данных
У нас около сорока одной тысячи с лишним записей. Если мы будем использовать все данные для построения модели, у нас не останется никаких данных для тестирования. Как правило, мы разделяем весь набор данных на две части, скажем, 70/30 процентов. Мы используем 70% данных для построения модели, а остальные - для проверки точности прогнозов созданной нами модели. Вы можете использовать другой коэффициент разделения в соответствии с вашими требованиями.
Создание массива функций
Прежде чем мы разделим данные, мы разделяем данные на два массива X и Y. Массив X содержит все функции (столбцы данных), которые мы хотим проанализировать, а массив Y представляет собой одномерный массив логических значений, который является выходом предсказание. Чтобы понять это, давайте запустим код.
Во-первых, выполните следующий оператор Python, чтобы создать массив X:
In [17]: X = data.iloc[:,1:]
Ознакомиться с содержанием X использовать headнапечатать несколько исходных записей. На следующем экране показано содержимое массива X.
In [18]: X.head ()
В массиве несколько строк и 23 столбца.
Затем мы создадим выходной массив, содержащий «y" значения.
Создание массива вывода
Чтобы создать массив для столбца прогнозируемого значения, используйте следующий оператор Python -
In [19]: Y = data.iloc[:,0]
Изучите его содержимое, позвонив head. Вывод экрана ниже показывает результат -
In [20]: Y.head()
Out[20]: 0 0
1 0
2 1
3 0
4 1
Name: y, dtype: int64
Теперь разделите данные, используя следующую команду -
In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)
Это создаст четыре массива под названием X_train, Y_train, X_test, and Y_test. Как и раньше, вы можете проверить содержимое этих массивов с помощью команды head. Мы будем использовать массивы X_train и Y_train для обучения нашей модели и массивы X_test и Y_test для тестирования и проверки.
Теперь мы готовы построить наш классификатор. Мы рассмотрим это в следующей главе.