Regressão logística em Python - divisão de dados
Temos cerca de quarenta e um mil registros ímpares. Se usarmos todos os dados para construção do modelo, não ficaremos com nenhum dado para teste. Geralmente, dividimos todo o conjunto de dados em duas partes, digamos 70/30 de porcentagem. Usamos 70% dos dados para a construção do modelo e o restante para testar a precisão na previsão do nosso modelo criado. Você pode usar uma taxa de divisão diferente de acordo com sua necessidade.
Criando Matriz de Recursos
Antes de dividir os dados, separamos os dados em duas matrizes X e Y. A matriz X contém todos os recursos (colunas de dados) que desejamos analisar e a matriz Y é uma matriz unidimensional de valores booleanos que é a saída de a previsão. Para entender isso, vamos executar alguns códigos.
Em primeiro lugar, execute a seguinte instrução Python para criar a matriz X -
In [17]: X = data.iloc[:,1:]
Para examinar o conteúdo de X usar headpara imprimir alguns registros iniciais. A tela a seguir mostra o conteúdo do array X.
In [18]: X.head ()
A matriz possui várias linhas e 23 colunas.
A seguir, criaremos uma matriz de saída contendo “y”Valores.
Criando Matriz de Saída
Para criar uma matriz para a coluna de valor previsto, use a seguinte instrução Python -
In [19]: Y = data.iloc[:,0]
Examine seu conteúdo chamando head. A saída da tela abaixo mostra o resultado -
In [20]: Y.head()
Out[20]: 0 0
1 0
2 1
3 0
4 1
Name: y, dtype: int64
Agora, divida os dados usando o seguinte comando -
In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)
Isso criará os quatro arrays chamados X_train, Y_train, X_test, and Y_test. Como antes, você pode examinar o conteúdo dessas matrizes usando o comando head. Usaremos os arrays X_train e Y_train para treinar nosso modelo e os arrays X_test e Y_test para teste e validação.
Agora, estamos prontos para construir nosso classificador. Veremos isso no próximo capítulo.