Logistische Regression in Python - Restrukturierung von Daten

Wenn eine Organisation eine Umfrage durchführt, versucht sie, so viele Informationen wie möglich vom Kunden zu sammeln, mit der Idee, dass diese Informationen zu einem späteren Zeitpunkt auf die eine oder andere Weise für die Organisation nützlich sein könnten. Um das aktuelle Problem zu lösen, müssen wir die Informationen abrufen, die für unser Problem direkt relevant sind.

Alle Felder anzeigen

Lassen Sie uns nun sehen, wie Sie die für uns nützlichen Datenfelder auswählen. Führen Sie die folgende Anweisung im Code-Editor aus.

In [6]: print(list(df.columns))

Sie sehen die folgende Ausgabe -

['age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays', 
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx', 
'euribor3m', 'nr_employed', 'y']

Die Ausgabe zeigt die Namen aller Spalten in der Datenbank. Die letzte Spalte „y“ ist ein boolescher Wert, der angibt, ob dieser Kunde eine Festgeldeinlage bei der Bank hat. Die Werte dieses Feldes sind entweder "y" oder "n". Sie können die Beschreibung und den Zweck jeder Spalte in der Datei Banks-Name.txt lesen, die als Teil der Daten heruntergeladen wurde.

Unerwünschte Felder beseitigen

Wenn Sie die Spaltennamen untersuchen, werden Sie feststellen, dass einige der Felder für das jeweilige Problem keine Bedeutung haben. Zum Beispiel Felder wiemonth, day_of_week, Kampagne usw. nützen uns nichts. Wir werden diese Felder aus unserer Datenbank entfernen. Um eine Spalte zu löschen, verwenden wir den Befehl drop wie unten gezeigt -

In [8]: #drop columns which are not needed.
   df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]], 
   axis = 1, inplace = True)

Der Befehl besagt, dass die Spaltennummer 0, 3, 7, 8 usw. gelöscht wird. Verwenden Sie die folgende Anweisung, um sicherzustellen, dass der Index richtig ausgewählt ist:

In [7]: df.columns[9]
Out[7]: 'day_of_week'

Dies gibt den Spaltennamen für den angegebenen Index aus.

Überprüfen Sie die Daten mit der head-Anweisung, nachdem Sie die nicht erforderlichen Spalten gelöscht haben. Die Bildschirmausgabe wird hier angezeigt -

In [9]: df.head()
Out[9]:
      job   marital  default  housing  loan  poutcome    y
0     blue-collar    married  unknown yes no nonexistent 0
1     technician     married  no    no    no nonexistent 0
2     management     single   no    yes   no success     1
3     services       married  no    no    no nonexistent 0
4     retired        married  no    yes   no success     1

Jetzt haben wir nur die Felder, die wir für unsere Datenanalyse und -vorhersage für wichtig halten. Die Wichtigkeit vonData Scientistkommt in diesem Schritt ins Bild. Der Datenwissenschaftler muss die geeigneten Spalten für die Modellbildung auswählen.

Zum Beispiel die Art von jobObwohl auf den ersten Blick möglicherweise nicht alle davon überzeugt sind, in die Datenbank aufgenommen zu werden, wird dies ein sehr nützliches Feld sein. Nicht alle Kundentypen öffnen den TD. Personen mit niedrigerem Einkommen öffnen die TDs möglicherweise nicht, während Personen mit höherem Einkommen ihr überschüssiges Geld normalerweise in TDs parken. Daher wird die Art des Jobs in diesem Szenario erheblich relevant. Wählen Sie ebenfalls sorgfältig die Spalten aus, die Ihrer Meinung nach für Ihre Analyse relevant sind.

Im nächsten Kapitel werden wir unsere Daten für die Erstellung des Modells vorbereiten.