Python Pandas - Porównanie z SQL
Ponieważ wielu potencjalnych użytkowników Pand jest zaznajomionych z SQL, ta strona ma na celu przedstawienie kilku przykładów, jak można wykonywać różne operacje SQL przy użyciu pand.
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips.head()
Jego output wygląda następująco -
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
WYBIERZ
W SQL selekcji dokonuje się za pomocą listy kolumn oddzielonych przecinkami, które wybierasz (lub *, aby zaznaczyć wszystkie kolumny) -
SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;
W przypadku Pandas wybór kolumn odbywa się poprzez przekazanie listy nazw kolumn do ramki DataFrame -
tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
Sprawdźmy cały program -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
Jego output wygląda następująco -
total_bill tip smoker time
0 16.99 1.01 No Dinner
1 10.34 1.66 No Dinner
2 21.01 3.50 No Dinner
3 23.68 3.31 No Dinner
4 24.59 3.61 No Dinner
Wywołanie DataFrame bez listy nazw kolumn spowoduje wyświetlenie wszystkich kolumn (podobnie jak SQL *).
GDZIE
Filtrowanie w języku SQL odbywa się za pomocą klauzuli WHERE.
SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;
Ramki danych można filtrować na wiele sposobów; najbardziej intuicyjny z nich to indeksowanie boolowskie.
tips[tips['time'] == 'Dinner'].head(5)
Sprawdźmy cały program -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips[tips['time'] == 'Dinner'].head(5)
Jego output wygląda następująco -
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
Powyższa instrukcja przekazuje serię obiektów True / False do DataFrame, zwracając wszystkie wiersze z wartością True.
Grupuj według
Ta operacja pobiera liczbę rekordów w każdej grupie w całym zestawie danych. Na przykład zapytanie pobierające liczbę wskazówek pozostawionych przez płeć -
SELECT sex, count(*)
FROM tips
GROUP BY sex;
Odpowiednik Pandy byłby -
tips.groupby('sex').size()
Sprawdźmy cały program -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips.groupby('sex').size()
Jego output wygląda następująco -
sex
Female 87
Male 157
dtype: int64
N rzędów górnych
SQL zwraca top n rows za pomocą LIMIT -
SELECT * FROM tips
LIMIT 5 ;
Odpowiednik Pandy byłby -
tips.head(5)
Sprawdźmy pełny przykład -
import pandas as pd
url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
tips = tips[['smoker', 'day', 'time']].head(5)
print tips
Jego output wygląda następująco -
smoker day time
0 No Sun Dinner
1 No Sun Dinner
2 No Sun Dinner
3 No Sun Dinner
4 No Sun Dinner
Oto kilka podstawowych operacji, które porównaliśmy, o których dowiedzieliśmy się w poprzednich rozdziałach Biblioteki Pandas.