Uczenie maszynowe w Pythonie - ekosystem
Wprowadzenie do Pythona
Python jest popularnym językiem programowania zorientowanym obiektowo, posiadającym możliwości języka programowania wysokiego poziomu. Łatwa do nauczenia się składnia i przenośność sprawiają, że jest obecnie popularny. Poniższe fakty stanowią wprowadzenie do Pythona -
Python został opracowany przez Guido van Rossuma w Stichting Mathematisch Centrum w Holandii.
Został napisany jako następca języka programowania o nazwie „ABC”.
Jego pierwsza wersja została wydana w 1991 roku.
Nazwa Python została wybrana przez Guido van Rossuma z programu telewizyjnego o nazwie Latający Cyrk Monty Pythona.
Jest to język programowania typu open source, co oznacza, że możemy go swobodnie pobierać i używać do tworzenia programów. Można go pobrać ze strony www.python.org .
Język programowania Python ma zarówno funkcje Java, jak i C. Ma elegancki kod „C”, az drugiej strony ma klasy i obiekty, takie jak Java do programowania obiektowego.
Jest to język interpretowany, co oznacza, że kod źródłowy programu w Pythonie byłby najpierw konwertowany na kod bajtowy, a następnie wykonywany przez maszynę wirtualną Pythona.
Mocne i słabe strony Pythona
Każdy język programowania ma swoje mocne i słabe strony, podobnie jak Python.
Silne strony
Według badań i ankiet Python jest piątym najważniejszym językiem, a także najpopularniejszym językiem do uczenia maszynowego i nauki o danych. Python ma następujące mocne strony -
Easy to learn and understand- Składnia Pythona jest prostsza; stąd też stosunkowo łatwo, nawet dla początkujących, nauczyć się i zrozumieć język.
Multi-purpose language - Python to uniwersalny język programowania, ponieważ obsługuje programowanie strukturalne, programowanie obiektowe, a także programowanie funkcjonalne.
Huge number of modules- Python ma ogromną liczbę modułów do pokrycia każdego aspektu programowania. Te moduły są łatwo dostępne do użycia, dzięki czemu Python jest językiem rozszerzalnym.
Support of open source community- Jako język programowania open source, Python jest obsługiwany przez bardzo dużą społeczność programistów. Z tego powodu błędy są łatwo naprawiane przez społeczność Pythona. Ta cecha sprawia, że Python jest bardzo solidny i adaptacyjny.
Scalability - Python jest skalowalnym językiem programowania, ponieważ zapewnia ulepszoną strukturę do obsługi dużych programów niż skrypty powłoki.
Słabość
Chociaż Python jest popularnym i potężnym językiem programowania, ma swoją słabość polegającą na powolnej szybkości wykonywania.
Szybkość wykonywania Pythona jest wolna w porównaniu do języków kompilowanych, ponieważ Python jest językiem interpretowanym. Może to być główny obszar ulepszeń dla społeczności Pythona.
Instalowanie Pythona
Aby pracować w Pythonie, musimy go najpierw zainstalować. Możesz przeprowadzić instalację Pythona na jeden z następujących dwóch sposobów -
Instalowanie Pythona indywidualnie
Używanie wstępnie spakowanej dystrybucji Pythona - Anaconda
Omówmy je szczegółowo.
Instalowanie Pythona pojedynczo
Jeśli chcesz zainstalować Pythona na swoim komputerze, musisz pobrać tylko kod binarny odpowiedni dla Twojej platformy. Dystrybucja Pythona jest dostępna na platformy Windows, Linux i Mac.
Poniżej znajduje się krótkie omówienie instalacji Pythona na wyżej wymienionych platformach -
On Unix and Linux platform
Wykonując następujące kroki, możemy zainstalować Python na platformie Unix i Linux -
Najpierw przejdź do www.python.org/downloads/ .
Następnie kliknij łącze, aby pobrać spakowany kod źródłowy dostępny dla systemów Unix / Linux.
Teraz pobierz i wyodrębnij pliki.
Następnie możemy edytować plik Modules / Setup, jeśli chcemy dostosować niektóre opcje.
Następnie wpisz polecenie run ./configure script
make
dokonać instalacji
On Windows platform
Wykonując poniższe kroki możemy zainstalować Pythona na platformie Windows -
Najpierw przejdź do www.python.org/downloads/ .
Następnie kliknij łącze do pliku instalatora Windows python-XYZ.msi. Tutaj XYZ to wersja, którą chcemy zainstalować.
Teraz musimy uruchomić pobrany plik. Przeniesie nas to do kreatora instalacji Pythona, który jest łatwy w użyciu. Teraz zaakceptuj ustawienia domyślne i poczekaj, aż instalacja się zakończy.
On Macintosh platform
Dla Mac OS X, Homebrew, świetny i łatwy w użyciu instalator pakietów jest zalecany do zainstalowania Pythona 3. W przypadku, gdy nie masz Homebrew, możesz go zainstalować za pomocą następującego polecenia -
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Można go zaktualizować za pomocą poniższego polecenia -
$ brew update
Teraz, aby zainstalować Python3 w twoim systemie, musimy uruchomić następujące polecenie -
$ brew install python3
Używanie wstępnie spakowanej dystrybucji języka Python: Anaconda
Anaconda to spakowana kompilacja Pythona, która zawiera wszystkie biblioteki szeroko używane w nauce o danych. Możemy wykonać następujące kroki, aby skonfigurować środowisko Python za pomocą Anacondy -
Step 1- Najpierw musimy pobrać wymagany pakiet instalacyjny z dystrybucji Anaconda. Link do tego samego to www.anaconda.com/distribution/ . Możesz wybrać system operacyjny Windows, Mac i Linux zgodnie z wymaganiami.
Step 2- Następnie wybierz wersję Pythona, którą chcesz zainstalować na swoim komputerze. Najnowsza wersja Pythona to 3.7. Tam znajdziesz opcje zarówno dla 64-bitowego, jak i 32-bitowego instalatora graficznego.
Step 3- Po wybraniu wersji systemu operacyjnego i Pythona, pobierze instalator Anaconda na twój komputer. Teraz kliknij dwukrotnie plik, a instalator zainstaluje pakiet Anaconda.
Step 4 - Aby sprawdzić, czy jest zainstalowany, czy nie, otwórz wiersz polecenia i wpisz Python w następujący sposób -
Możesz to również sprawdzić w szczegółowym wykładzie wideo na stronie www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp .
Dlaczego Python do nauki o danych?
Python jest piątym najważniejszym językiem, a także najpopularniejszym językiem do uczenia maszynowego i nauki o danych. Oto cechy Pythona, które sprawiają, że jest to preferowany język do nauki o danych -
Bogaty zestaw pakietów
Python ma obszerny i potężny zestaw pakietów, które są gotowe do użycia w różnych domenach. Posiada również pakiety takie jaknumpy, scipy, pandas, scikit-learn itp., które są wymagane do uczenia maszynowego i nauki o danych.
Łatwe prototypowanie
Kolejną ważną cechą Pythona, która sprawia, że jest to język do nauki o danych, jest łatwe i szybkie prototypowanie. Ta funkcja jest przydatna przy opracowywaniu nowego algorytmu.
Funkcja współpracy
Dziedzina nauki o danych zasadniczo wymaga dobrej współpracy, a Python zapewnia wiele przydatnych narzędzi, które sprawiają, że jest to wyjątkowo.
Jeden język dla wielu dziedzin
Typowy projekt data science obejmuje różne dziedziny, takie jak ekstrakcja danych, manipulacja danymi, analiza danych, wyodrębnianie cech, modelowanie, ocena, wdrażanie i aktualizacja rozwiązania. Ponieważ Python jest językiem wielofunkcyjnym, umożliwia analitykom danych dotarcie do wszystkich tych domen z poziomu wspólnej platformy.
Składniki ekosystemu Python ML
W tej sekcji omówimy kilka podstawowych bibliotek Data Science, które tworzą składniki ekosystemu uczenia maszynowego Python. Te przydatne komponenty sprawiają, że Python jest ważnym językiem dla nauki o danych. Chociaż istnieje wiele takich komponentów, omówmy tutaj niektóre z ważnych składników ekosystemu Pythona -
Notatnik Jupyter
Notebooki Jupyter w zasadzie zapewniają interaktywne środowisko obliczeniowe do tworzenia aplikacji Data Science opartych na języku Python. Wcześniej były znane jako notatniki ipython. Oto niektóre cechy notebooków Jupyter, które sprawiają, że jest to jeden z najlepszych elementów ekosystemu Python ML -
Notatniki Jupyter mogą zilustrować proces analizy krok po kroku, układając elementy, takie jak kod, obrazy, tekst, dane wyjściowe itp., Krok po kroku.
Pomaga analitykowi danych udokumentować proces myślowy podczas opracowywania procesu analizy.
Wynik można również uchwycić jako część zeszytu.
Za pomocą notatników jupyter możemy również dzielić się naszą pracą z rówieśnikami.
Instalacja i wykonanie
Jeśli używasz dystrybucji Anaconda, nie musisz oddzielnie instalować notebooka jupyter, ponieważ jest już z nim zainstalowany. Wystarczy przejść do polecenia Anaconda i wpisać następujące polecenie -
C:\>jupyter notebook
Po naciśnięciu klawisza Enter uruchomi się serwer notebooka pod adresem localhost: 8888 twojego komputera. Jest to pokazane na poniższym zrzucie ekranu -
Teraz po kliknięciu zakładki Nowy pojawi się lista opcji. Wybierz Python 3, a zostaniesz przeniesiony do nowego notatnika, aby rozpocząć z nim pracę. Zobaczysz to na poniższych zrzutach ekranu -
Z drugiej strony, jeśli używasz standardowej dystrybucji Pythona, notebook jupyter można zainstalować za pomocą popularnego instalatora pakietów Pythona, pip.
pip install jupyter
Rodzaje komórek w notatniku Jupyter
Poniżej przedstawiono trzy typy komórek w notebooku jupyter -
Code cells- Jak sama nazwa wskazuje, możemy użyć tych komórek do napisania kodu. Po zapisaniu kodu / treści prześle je do jądra, które jest powiązane z notatnikiem.
Markdown cells- Możemy użyć tych komórek do zapisania procesu obliczeniowego. Mogą zawierać takie rzeczy, jak tekst, obrazy, równania Latex, tagi HTML itp.
Raw cells- Tekst w nich wpisany jest wyświetlany tak, jak jest. Te komórki są w zasadzie używane do dodawania tekstu, którego nie chcemy konwertować przez mechanizm automatycznej konwersji notatnika jupyter.
Bardziej szczegółowe badanie notebooka jupyter można znaleźć pod linkiem www.tutorialspoint.com/jupyter/index.htm .
NumPy
Jest to kolejny przydatny komponent, dzięki któremu Python jest jednym z ulubionych języków Data Science. Zasadniczo oznacza Numerical Python i składa się z wielowymiarowych obiektów tablicowych. Korzystając z NumPy, możemy wykonać następujące ważne operacje -
Operacje matematyczne i logiczne na tablicach.
Transformacja Fouriera
Działania związane z algebrą liniową.
Widzimy również NumPy jako zamiennik MatLab, ponieważ NumPy jest używany głównie wraz z Scipy (Scientific Python) i Mat-plotlib (biblioteka kreśląca).
Installation and Execution
Jeśli używasz dystrybucji Anaconda, nie musisz oddzielnie instalować NumPy, ponieważ jest już z nią zainstalowany. Wystarczy zaimportować pakiet do skryptu Python za pomocą następujących czynności -
import numpy as np
Z drugiej strony, jeśli używasz standardowej dystrybucji Pythona, NumPy można zainstalować za pomocą popularnego instalatora pakietów Pythona, pip.
pip install NumPy
Aby uzyskać bardziej szczegółowe badanie NumPy, możesz przejść do łącza www.tutorialspoint.com/numpy/index.htm .
Pandy
Jest to kolejna przydatna biblioteka Pythona, dzięki której Python jest jednym z ulubionych języków nauki o danych. Pandy są zasadniczo używane do manipulacji danymi, sprzeciwiania się i analizy. Został opracowany przez Wesa McKinneya w 2008 roku. Z pomocą Pandy w przetwarzaniu danych możemy wykonać następujące pięć kroków -
- Load
- Prepare
- Manipulate
- Model
- Analyze
Reprezentacja danych w Pandach
Cała reprezentacja danych w Pandas odbywa się za pomocą następujących trzech struktur danych -
Series- Jest to w zasadzie jednowymiarowa tablica ndarray z etykietą osi, co oznacza, że przypomina prostą tablicę z jednorodnymi danymi. Na przykład poniższa seria to zbiór liczb całkowitych 1,5,10,15,24,25 ...
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- Jest to najbardziej użyteczna struktura danych i używana do prawie wszystkich rodzajów reprezentacji danych i manipulacji na pandach. Zasadniczo jest to dwuwymiarowa struktura danych, która może zawierać dane heterogeniczne. Ogólnie dane tabelaryczne są reprezentowane za pomocą ramek danych. Na przykład poniższa tabela pokazuje dane uczniów posiadających ich imiona i numery rolek, wiek i płeć -
Nazwa | Numer rolki | Wiek | Płeć |
---|---|---|---|
Aarav | 1 | 15 | Męski |
Harshit | 2 | 14 | Męski |
Kanika | 3 | 16 | Płeć żeńska |
Mayank | 4 | 15 | Męski |
Panel- Jest to trójwymiarowa struktura danych zawierająca dane heterogeniczne. Przedstawienie panelu w formie graficznej jest bardzo trudne, ale można go zilustrować jako kontener DataFrame.
Poniższa tabela przedstawia wymiary i opis wyżej wymienionych struktur danych używanych w Pandach -
Struktura danych | Wymiar | Opis |
---|---|---|
Seria | 1-D | Niezmienny rozmiar, dane jednorodne 1-D |
DataFrames | 2-D | Zmienne wielkości, heterogeniczne dane w formie tabelarycznej |
Płyta | 3-D | Tablica z możliwością zmiany rozmiaru, kontener DataFrame. |
Możemy zrozumieć te struktury danych, ponieważ struktura danych o wyższych wymiarach jest pojemnikiem struktury danych o niższych wymiarach.
Instalacja i wykonanie
Jeśli używasz dystrybucji Anaconda, nie musisz instalować osobno Pandy, ponieważ jest już z nią zainstalowana. Wystarczy zaimportować pakiet do skryptu Python za pomocą następujących czynności -
import pandas as pd
Z drugiej strony, jeśli używasz standardowej dystrybucji Pythona, Pandy można zainstalować za pomocą popularnego instalatora pakietów Pythona, pip.
pip install Pandas
Po zainstalowaniu Pandy możesz zaimportować go do swojego skryptu Python, tak jak powyżej.
Przykład
Poniżej znajduje się przykład tworzenia serii z ndarray przy użyciu Pand -
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
Bardziej szczegółowe badanie Pand można znaleźć pod linkiem www.tutorialspoint.com/python_pandas/index.htm .
Scikit-learn
Kolejną przydatną i najważniejszą biblioteką Pythona do nauki o danych i uczenia maszynowego w Pythonie jest Scikit-learn. Oto niektóre funkcje Scikit-Learn, które sprawiają, że jest tak przydatny -
Jest zbudowany na NumPy, SciPy i Matplotlib.
Jest to oprogramowanie typu open source i może być ponownie użyte na licencji BSD.
Jest dostępny dla każdego i można go ponownie wykorzystać w różnych kontekstach.
Za jego pomocą można zaimplementować szeroką gamę algorytmów uczenia maszynowego obejmujących główne obszary ML, takie jak klasyfikacja, grupowanie, regresja, redukcja wymiarowości, wybór modelu itp.
Instalacja i wykonanie
Jeśli używasz dystrybucji Anaconda, nie musisz oddzielnie instalować Scikit-learn, ponieważ jest już z nią zainstalowany. Wystarczy, że użyjesz pakietu w swoim skrypcie w Pythonie. Na przykład za pomocą następującego wiersza skryptu importujemy zbiór danych pacjentów z rakiem piersi zScikit-learn -
from sklearn.datasets import load_breast_cancer
Z drugiej strony, jeśli używasz standardowej dystrybucji Pythona i masz NumPy i SciPy, Scikit-learn można zainstalować za pomocą popularnego instalatora pakietów Pythona, pip.
pip install -U scikit-learn
Po zainstalowaniu Scikit-learn możesz użyć go w swoim skrypcie Pythona, tak jak to zrobiłeś powyżej.