Maschinelles Lernen mit Python - Ökosystem
Eine Einführung in Python
Python ist eine beliebte objektorientierte Programmiersprache mit den Fähigkeiten einer höheren Programmiersprache. Seine leicht zu erlernende Syntax und Portabilitätsfähigkeit machen es heutzutage beliebt. Die folgenden Fakten geben uns die Einführung in Python -
Python wurde von Guido van Rossum am Stichting Mathematisch Centrum in den Niederlanden entwickelt.
Es wurde als Nachfolger der Programmiersprache 'ABC' geschrieben.
Die erste Version wurde 1991 veröffentlicht.
Der Name Python wurde von Guido van Rossum aus einer TV-Show namens Monty Pythons Flying Circus ausgewählt.
Es ist eine Open-Source-Programmiersprache, dh wir können sie kostenlos herunterladen und zur Entwicklung von Programmen verwenden. Es kann von www.python.org heruntergeladen werden .
Die Programmiersprache Python verfügt über die Funktionen von Java und C. Es hat den eleganten C-Code und andererseits Klassen und Objekte wie Java für die objektorientierte Programmierung.
Es ist eine interpretierte Sprache, dh der Quellcode des Python-Programms wird zuerst in Bytecode konvertiert und dann von der virtuellen Python-Maschine ausgeführt.
Stärken und Schwächen von Python
Jede Programmiersprache hat einige Stärken und Schwächen, ebenso wie Python.
Stärken
Studien und Umfragen zufolge ist Python die fünftwichtigste Sprache sowie die beliebteste Sprache für maschinelles Lernen und Datenwissenschaft. Aufgrund der folgenden Stärken hat Python:
Easy to learn and understand- Die Syntax von Python ist einfacher; Daher ist es auch für Anfänger relativ einfach, die Sprache zu lernen und zu verstehen.
Multi-purpose language - Python ist eine Mehrzweckprogrammiersprache, da es strukturierte Programmierung, objektorientierte Programmierung sowie funktionale Programmierung unterstützt.
Huge number of modules- Python verfügt über eine große Anzahl von Modulen, die alle Aspekte der Programmierung abdecken. Diese Module sind leicht verfügbar und machen Python zu einer erweiterbaren Sprache.
Support of open source community- Als Open Source-Programmiersprache wird Python von einer sehr großen Entwicklergemeinschaft unterstützt. Aus diesem Grund können die Fehler von der Python-Community leicht behoben werden. Diese Eigenschaft macht Python sehr robust und anpassungsfähig.
Scalability - Python ist eine skalierbare Programmiersprache, da es eine verbesserte Struktur für die Unterstützung großer Programme bietet als Shell-Skripte.
Die Schwäche
Obwohl Python eine beliebte und leistungsstarke Programmiersprache ist, hat es seine eigene Schwäche der langsamen Ausführungsgeschwindigkeit.
Die Ausführungsgeschwindigkeit von Python ist im Vergleich zu kompilierten Sprachen langsam, da Python eine interpretierte Sprache ist. Dies kann der Hauptverbesserungsbereich für die Python-Community sein.
Python installieren
Um in Python arbeiten zu können, müssen wir es zuerst installieren. Sie können die Installation von Python auf eine der folgenden zwei Arten durchführen:
Python einzeln installieren
Verwenden der vorgefertigten Python-Distribution - Anaconda
Lassen Sie uns diese jeweils im Detail besprechen.
Python einzeln installieren
Wenn Sie Python auf Ihrem Computer installieren möchten, müssen Sie nur den für Ihre Plattform geltenden Binärcode herunterladen. Die Python-Distribution ist für Windows-, Linux- und Mac-Plattformen verfügbar.
Im Folgenden finden Sie eine kurze Übersicht über die Installation von Python auf den oben genannten Plattformen:
On Unix and Linux platform
Mit Hilfe der folgenden Schritte können wir Python unter Unix und Linux installieren -
Gehen Sie zunächst zu www.python.org/downloads/ .
Klicken Sie anschließend auf den Link, um den für Unix / Linux verfügbaren komprimierten Quellcode herunterzuladen.
Laden Sie jetzt Dateien herunter und extrahieren Sie sie.
Als nächstes können wir die Modul- / Setup-Datei bearbeiten, wenn wir einige Optionen anpassen möchten.
Als nächstes schreiben Sie den Befehl run ./configure script
make
make install
On Windows platform
Mithilfe der folgenden Schritte können wir Python auf einer Windows-Plattform installieren:
Gehen Sie zunächst zu www.python.org/downloads/ .
Klicken Sie anschließend auf den Link für die Windows-Installationsdatei python-XYZ.msi. Hier ist XYZ die Version, die wir installieren möchten.
Jetzt müssen wir die heruntergeladene Datei ausführen. Wir gelangen zum Python-Installationsassistenten, der einfach zu bedienen ist. Übernehmen Sie nun die Standardeinstellungen und warten Sie, bis die Installation abgeschlossen ist.
On Macintosh platform
Für Mac OS X, Homebrew, wird ein großartiges und benutzerfreundliches Paketinstallationsprogramm empfohlen, um Python 3 zu installieren. Falls Sie kein Homebrew haben, können Sie es mit Hilfe des folgenden Befehls installieren:
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Es kann mit dem folgenden Befehl aktualisiert werden -
$ brew update
Um Python3 auf Ihrem System zu installieren, müssen Sie den folgenden Befehl ausführen:
$ brew install python3
Verwenden der vorgefertigten Python-Distribution: Anaconda
Anaconda ist eine gepackte Zusammenstellung von Python, die alle in der Datenwissenschaft weit verbreiteten Bibliotheken enthält. Wir können die folgenden Schritte ausführen, um die Python-Umgebung mit Anaconda einzurichten:
Step 1- Zuerst müssen wir das erforderliche Installationspaket von der Anaconda-Distribution herunterladen. Der Link dafür ist www.anaconda.com/distribution/ . Sie können je nach Anforderung zwischen Windows-, Mac- und Linux-Betriebssystemen wählen.
Step 2- Wählen Sie als Nächstes die Python-Version aus, die Sie auf Ihrem Computer installieren möchten. Die neueste Python-Version ist 3.7. Dort erhalten Sie die Optionen für das 64-Bit- und das 32-Bit-Grafikinstallationsprogramm.
Step 3- Nach Auswahl des Betriebssystems und der Python-Version wird das Anaconda-Installationsprogramm auf Ihren Computer heruntergeladen. Doppelklicken Sie nun auf die Datei und das Installationsprogramm installiert das Anaconda-Paket.
Step 4 - Um zu überprüfen, ob es installiert ist oder nicht, öffnen Sie eine Eingabeaufforderung und geben Sie Python wie folgt ein: -
Sie können dies auch in einer ausführlichen Videovorlesung unter www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp überprüfen .
Warum Python für Data Science?
Python ist die fünftwichtigste Sprache sowie die beliebteste Sprache für maschinelles Lernen und Datenwissenschaft. Die folgenden Funktionen von Python machen es zur bevorzugten Sprachwahl für die Datenwissenschaft:
Umfangreiche Pakete
Python verfügt über eine umfangreiche und leistungsstarke Reihe von Paketen, die für die Verwendung in verschiedenen Domänen bereit sind. Es hat auch Pakete wienumpy, scipy, pandas, scikit-learn usw., die für maschinelles Lernen und Datenwissenschaft erforderlich sind.
Einfaches Prototyping
Ein weiteres wichtiges Merkmal von Python, das es zur Wahl der Sprache für die Datenwissenschaft macht, ist das einfache und schnelle Prototyping. Diese Funktion ist nützlich für die Entwicklung eines neuen Algorithmus.
Kollaborationsfunktion
Das Gebiet der Datenwissenschaft erfordert grundsätzlich eine gute Zusammenarbeit, und Python bietet viele nützliche Tools, die dies extrem machen.
Eine Sprache für viele Domänen
Ein typisches Data Science-Projekt umfasst verschiedene Bereiche wie Datenextraktion, Datenmanipulation, Datenanalyse, Merkmalsextraktion, Modellierung, Bewertung, Bereitstellung und Aktualisierung der Lösung. Da Python eine Mehrzwecksprache ist, kann der Datenwissenschaftler alle diese Domänen von einer gemeinsamen Plattform aus ansprechen.
Komponenten des Python ML-Ökosystems
Lassen Sie uns in diesem Abschnitt einige Kernbibliotheken von Data Science diskutieren, die die Komponenten des Python-Ökosystems für maschinelles Lernen bilden. Diese nützlichen Komponenten machen Python zu einer wichtigen Sprache für Data Science. Obwohl es viele solcher Komponenten gibt, lassen Sie uns hier einige der wichtigsten Komponenten des Python-Ökosystems diskutieren -
Jupyter Notizbuch
Jupyter-Notebooks bieten grundsätzlich eine interaktive Computerumgebung für die Entwicklung von Python-basierten Data Science-Anwendungen. Sie sind früher als Ipython-Notizbücher bekannt. Im Folgenden sind einige der Funktionen von Jupyter-Notebooks aufgeführt, die es zu einer der besten Komponenten des Python ML-Ökosystems machen:
Jupyter-Notizbücher können den Analyseprozess Schritt für Schritt veranschaulichen, indem sie Dinge wie Code, Bilder, Text, Ausgabe usw. Schritt für Schritt anordnen.
Es hilft einem Datenwissenschaftler, den Denkprozess zu dokumentieren, während er den Analyseprozess entwickelt.
Man kann das Ergebnis auch als Teil des Notizbuchs erfassen.
Mit Hilfe von Jupyter-Notizbüchern können wir unsere Arbeit auch mit Kollegen teilen.
Installation und Ausführung
Wenn Sie die Anaconda-Distribution verwenden, müssen Sie das Jupyter-Notebook nicht separat installieren, da es bereits mit ihm installiert ist. Sie müssen nur zur Anaconda-Eingabeaufforderung gehen und den folgenden Befehl eingeben:
C:\>jupyter notebook
Nach dem Drücken der Eingabetaste wird ein Notebook-Server unter localhost: 8888 Ihres Computers gestartet. Es wird im folgenden Screenshot gezeigt -
Nachdem Sie auf die Registerkarte Neu geklickt haben, erhalten Sie eine Liste mit Optionen. Wählen Sie Python 3 und Sie gelangen zum neuen Notizbuch, um mit der Arbeit zu beginnen. In den folgenden Screenshots erhalten Sie einen Einblick -
Wenn Sie dagegen die Standard-Python-Distribution verwenden, kann das Jupyter-Notebook mit dem beliebten Python-Paket-Installationsprogramm pip installiert werden.
pip install jupyter
Zelltypen im Jupyter-Notizbuch
Im Folgenden sind die drei Zelltypen in einem Jupyter-Notizbuch aufgeführt:
Code cells- Wie der Name schon sagt, können wir diese Zellen zum Schreiben von Code verwenden. Nach dem Schreiben des Codes / Inhalts wird dieser an den Kernel gesendet, der dem Notizbuch zugeordnet ist.
Markdown cells- Wir können diese Zellen verwenden, um den Berechnungsprozess zu notieren. Sie können Dinge wie Text, Bilder, Latexgleichungen, HTML-Tags usw. enthalten.
Raw cells- Der darin geschriebene Text wird so angezeigt, wie er ist. Diese Zellen werden im Wesentlichen verwendet, um den Text hinzuzufügen, den wir nicht durch den automatischen Konvertierungsmechanismus des Jupyter-Notebooks konvertieren möchten.
Weitere Informationen zum Jupyter-Notizbuch finden Sie unter dem Link www.tutorialspoint.com/jupyter/index.htm .
NumPy
Es ist eine weitere nützliche Komponente, die Python zu einer der Lieblingssprachen für Data Science macht. Es steht im Wesentlichen für Numerical Python und besteht aus mehrdimensionalen Array-Objekten. Mit NumPy können wir die folgenden wichtigen Vorgänge ausführen:
Mathematische und logische Operationen an Arrays.
Fourier-Transformation
Operationen im Zusammenhang mit linearer Algebra.
Wir können NumPy auch als Ersatz für MatLab sehen, da NumPy hauptsächlich zusammen mit Scipy (Scientific Python) und Mat-plotlib (Plotbibliothek) verwendet wird.
Installation and Execution
Wenn Sie die Anaconda-Distribution verwenden, müssen Sie NumPy nicht separat installieren, da es bereits installiert ist. Sie müssen das Paket nur mit Hilfe der folgenden Schritte in Ihr Python-Skript importieren:
import numpy as np
Wenn Sie dagegen die Standard-Python-Distribution verwenden, kann NumPy mit dem beliebten Python-Paket-Installationsprogramm pip installiert werden.
pip install NumPy
Weitere Informationen zu NumPy finden Sie unter dem Link www.tutorialspoint.com/numpy/index.htm .
Pandas
Es ist eine weitere nützliche Python-Bibliothek, die Python zu einer der Lieblingssprachen für Data Science macht. Pandas wird hauptsächlich zur Datenmanipulation, zum Wrangling und zur Analyse verwendet. Es wurde 2008 von Wes McKinney entwickelt. Mit Hilfe von Pandas können wir bei der Datenverarbeitung die folgenden fünf Schritte ausführen:
- Load
- Prepare
- Manipulate
- Model
- Analyze
Datendarstellung in Pandas
Die gesamte Darstellung von Daten in Pandas erfolgt mithilfe der folgenden drei Datenstrukturen:
Series- Es handelt sich im Grunde genommen um ein eindimensionales Ndarray mit einer Achsenbeschriftung, was bedeutet, dass es sich um ein einfaches Array mit homogenen Daten handelt. Die folgende Reihe ist beispielsweise eine Sammlung von ganzen Zahlen 1,5,10,15,24,25 ...
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- Es ist die nützlichste Datenstruktur und wird für fast alle Arten der Darstellung und Manipulation von Daten in Pandas verwendet. Grundsätzlich handelt es sich um eine zweidimensionale Datenstruktur, die heterogene Daten enthalten kann. Im Allgemeinen werden tabellarische Daten mithilfe von Datenrahmen dargestellt. Die folgende Tabelle zeigt beispielsweise die Daten von Schülern mit Namen und Rollennummern, Alter und Geschlecht -
Name | Rollennummer | Alter | Geschlecht |
---|---|---|---|
Aarav | 1 | 15 | Männlich |
Harshit | 2 | 14 | Männlich |
Kanika | 3 | 16 | Weiblich |
Mayank | 4 | 15 | Männlich |
Panel- Es handelt sich um eine dreidimensionale Datenstruktur, die heterogene Daten enthält. Es ist sehr schwierig, das Panel in grafischer Darstellung darzustellen, es kann jedoch als Container von DataFrame dargestellt werden.
Die folgende Tabelle gibt uns die Dimension und Beschreibung der oben genannten Datenstrukturen, die in Pandas verwendet werden -
Datenstruktur | Abmessungen | Beschreibung |
---|---|---|
Serie | 1-D | Größe unveränderlich, 1-D homogene Daten |
DataFrames | 2-D | Größe Veränderbare, heterogene Daten in Tabellenform |
Panel | 3-D | Größenveränderbares Array, Container mit DataFrame. |
Wir können diese Datenstrukturen verstehen, da die höherdimensionale Datenstruktur der Container der niedrigdimensionalen Datenstruktur ist.
Installation und Ausführung
Wenn Sie die Anaconda-Distribution verwenden, müssen Sie Pandas nicht separat installieren, da es bereits installiert ist. Sie müssen das Paket nur mit Hilfe der folgenden Schritte in Ihr Python-Skript importieren:
import pandas as pd
Wenn Sie dagegen die Standard-Python-Distribution verwenden, können Pandas mit dem beliebten Python-Paket-Installationsprogramm pip installiert werden.
pip install Pandas
Nach der Installation von Pandas können Sie es wie oben beschrieben in Ihr Python-Skript importieren.
Beispiel
Das folgende Beispiel zeigt das Erstellen einer Serie aus ndarray mithilfe von Pandas:
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
Weitere Informationen zu Pandas finden Sie unter dem Link www.tutorialspoint.com/python_pandas/index.htm .
Scikit-lernen
Eine weitere nützliche und wichtigste Python-Bibliothek für Data Science und maschinelles Lernen in Python ist Scikit-learn. Das Folgende sind einige Funktionen von Scikit-learn, die es so nützlich machen -
Es basiert auf NumPy, SciPy und Matplotlib.
Es ist Open Source und kann unter BSD-Lizenz wiederverwendet werden.
Es ist für jedermann zugänglich und kann in verschiedenen Zusammenhängen wiederverwendet werden.
Mit seiner Hilfe kann eine breite Palette von Algorithmen für maschinelles Lernen implementiert werden, die wichtige Bereiche der ML wie Klassifizierung, Clustering, Regression, Dimensionsreduktion, Modellauswahl usw. abdecken.
Installation und Ausführung
Wenn Sie die Anaconda-Distribution verwenden, müssen Sie Scikit-learn nicht separat installieren, da es bereits mit installiert ist. Sie müssen das Paket nur in Ihrem Python-Skript verwenden. Mit der folgenden Skriptzeile importieren wir beispielsweise einen Datensatz von Brustkrebspatientinnen ausScikit-learn - -
from sklearn.datasets import load_breast_cancer
Wenn Sie jedoch die Standard-Python-Distribution verwenden und NumPy und SciPy verwenden, kann Scikit-learn mit dem beliebten Python-Paketinstallationsprogramm pip installiert werden.
pip install -U scikit-learn
Nach der Installation von Scikit-learn können Sie es wie oben beschrieben in Ihrem Python-Skript verwenden.