पायथन पंडों - SQL के साथ तुलना

चूंकि कई संभावित पंडों के उपयोगकर्ताओं की SQL के साथ कुछ परिचितता है, इसलिए यह पृष्ठ कुछ उदाहरणों को प्रदान करने के लिए है कि कैसे विभिन्न SQL ऑपरेशनों को पांडा का उपयोग करके किया जा सकता है।

import pandas as pd

url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'

tips=pd.read_csv(url)
print tips.head()

आईटी इस output इस प्रकार है -

total_bill   tip      sex  smoker  day     time  size
0        16.99  1.01   Female      No  Sun  Dinner      2
1        10.34  1.66     Male      No  Sun  Dinner      3
2        21.01  3.50     Male      No  Sun  Dinner      3
3        23.68  3.31     Male      No  Sun  Dinner      2
4        24.59  3.61   Female      No  Sun  Dinner      4

चुनते हैं

SQL में, आपके द्वारा चुने गए स्तंभों की अल्पविराम से अलग सूची का उपयोग करके चयन किया जाता है (या सभी स्तंभों का चयन करने के लिए) -

SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;

पंडों के साथ, स्तंभ चयन आपके डेटाफ़्रेम में स्तंभ नामों की एक सूची पारित करके किया जाता है -

tips[['total_bill', 'tip', 'smoker', 'time']].head(5)

आइए देखें पूरा कार्यक्रम -

import pandas as pd

url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
 
tips=pd.read_csv(url)
print tips[['total_bill', 'tip', 'smoker', 'time']].head(5)

आईटी इस output इस प्रकार है -

total_bill   tip  smoker     time
0       16.99  1.01      No   Dinner
1       10.34  1.66      No   Dinner
2       21.01  3.50      No   Dinner
3       23.68  3.31      No   Dinner
4       24.59  3.61      No   Dinner

कॉलम नामों की सूची के बिना DataFrame को कॉल करना सभी कॉलम (SQL के * के समान) प्रदर्शित करेगा।

कहाँ पे

SQL में फ़िल्टरिंग WHERE क्लॉज के माध्यम से की जाती है।

SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;

DataFrames को कई तरीकों से फ़िल्टर किया जा सकता है; सबसे सहज जो बूलियन अनुक्रमण का उपयोग कर रहा है।

tips[tips['time'] == 'Dinner'].head(5)

आइए देखें पूरा कार्यक्रम -

import pandas as pd

url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'

tips=pd.read_csv(url)
print tips[tips['time'] == 'Dinner'].head(5)

आईटी इस output इस प्रकार है -

total_bill   tip      sex  smoker  day    time  size
0       16.99  1.01   Female     No   Sun  Dinner    2
1       10.34  1.66     Male     No   Sun  Dinner    3
2       21.01  3.50     Male     No   Sun  Dinner    3
3       23.68  3.31     Male     No   Sun  Dinner    2
4       24.59  3.61   Female     No   Sun  Dinner    4

उपरोक्त कथन DataFrame में True / False ऑब्जेक्ट्स की एक श्रृंखला को पार करता है, True के साथ सभी पंक्तियों को वापस करता है।

समूह द्वारा

यह ऑपरेशन एक डेटासेट में प्रत्येक समूह में रिकॉर्ड की गिनती प्राप्त करता है। उदाहरण के लिए, एक क्वेरी हमें सेक्स द्वारा छोड़े गए सुझावों की संख्या प्राप्त कर रही है -

SELECT sex, count(*)
FROM tips
GROUP BY sex;

पंडों के समकक्ष होगा -

tips.groupby('sex').size()

आइए देखें पूरा कार्यक्रम -

import pandas as pd

url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'

tips=pd.read_csv(url)
print tips.groupby('sex').size()

आईटी इस output इस प्रकार है -

sex
Female   87
Male    157
dtype: int64

शीर्ष एन पंक्तियाँ

एसक्यूएल रिटर्न top n rows का उपयोग करते हुए LIMIT -

SELECT * FROM tips
LIMIT 5 ;

पंडों के समकक्ष होगा -

tips.head(5)

आइए पूरा उदाहरण देखें -

import pandas as pd

url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'

tips=pd.read_csv(url)
tips = tips[['smoker', 'day', 'time']].head(5)
print tips

आईटी इस output इस प्रकार है -

smoker   day     time
0      No   Sun   Dinner
1      No   Sun   Dinner
2      No   Sun   Dinner
3      No   Sun   Dinner
4      No   Sun   Dinner

ये कुछ बुनियादी ऑपरेशन हैं जिनकी तुलना हमने पंडों लाइब्रेरी के पिछले अध्यायों में की है।