पायथन पंडों - SQL के साथ तुलना
चूंकि कई संभावित पंडों के उपयोगकर्ताओं की SQL के साथ कुछ परिचितता है, इसलिए यह पृष्ठ कुछ उदाहरणों को प्रदान करने के लिए है कि कैसे विभिन्न SQL ऑपरेशनों को पांडा का उपयोग करके किया जा सकता है।
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips.head()
आईटी इस output इस प्रकार है -
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
चुनते हैं
SQL में, आपके द्वारा चुने गए स्तंभों की अल्पविराम से अलग सूची का उपयोग करके चयन किया जाता है (या सभी स्तंभों का चयन करने के लिए) -
SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;
पंडों के साथ, स्तंभ चयन आपके डेटाफ़्रेम में स्तंभ नामों की एक सूची पारित करके किया जाता है -
tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
आइए देखें पूरा कार्यक्रम -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
आईटी इस output इस प्रकार है -
total_bill tip smoker time
0 16.99 1.01 No Dinner
1 10.34 1.66 No Dinner
2 21.01 3.50 No Dinner
3 23.68 3.31 No Dinner
4 24.59 3.61 No Dinner
कॉलम नामों की सूची के बिना DataFrame को कॉल करना सभी कॉलम (SQL के * के समान) प्रदर्शित करेगा।
कहाँ पे
SQL में फ़िल्टरिंग WHERE क्लॉज के माध्यम से की जाती है।
SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;
DataFrames को कई तरीकों से फ़िल्टर किया जा सकता है; सबसे सहज जो बूलियन अनुक्रमण का उपयोग कर रहा है।
tips[tips['time'] == 'Dinner'].head(5)
आइए देखें पूरा कार्यक्रम -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips[tips['time'] == 'Dinner'].head(5)
आईटी इस output इस प्रकार है -
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
उपरोक्त कथन DataFrame में True / False ऑब्जेक्ट्स की एक श्रृंखला को पार करता है, True के साथ सभी पंक्तियों को वापस करता है।
समूह द्वारा
यह ऑपरेशन एक डेटासेट में प्रत्येक समूह में रिकॉर्ड की गिनती प्राप्त करता है। उदाहरण के लिए, एक क्वेरी हमें सेक्स द्वारा छोड़े गए सुझावों की संख्या प्राप्त कर रही है -
SELECT sex, count(*)
FROM tips
GROUP BY sex;
पंडों के समकक्ष होगा -
tips.groupby('sex').size()
आइए देखें पूरा कार्यक्रम -
import pandas as pd
url = 'https://raw.github.com/pandasdev/
pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
print tips.groupby('sex').size()
आईटी इस output इस प्रकार है -
sex
Female 87
Male 157
dtype: int64
शीर्ष एन पंक्तियाँ
एसक्यूएल रिटर्न top n rows का उपयोग करते हुए LIMIT -
SELECT * FROM tips
LIMIT 5 ;
पंडों के समकक्ष होगा -
tips.head(5)
आइए पूरा उदाहरण देखें -
import pandas as pd
url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'
tips=pd.read_csv(url)
tips = tips[['smoker', 'day', 'time']].head(5)
print tips
आईटी इस output इस प्रकार है -
smoker day time
0 No Sun Dinner
1 No Sun Dinner
2 No Sun Dinner
3 No Sun Dinner
4 No Sun Dinner
ये कुछ बुनियादी ऑपरेशन हैं जिनकी तुलना हमने पंडों लाइब्रेरी के पिछले अध्यायों में की है।