पायथन - एक्सएलएस डाटा प्रोसेसिंग
Microsoft Excel एक बहुत व्यापक रूप से उपयोग की जाने वाली शीट प्रोग्राम है। इसकी उपयोगकर्ता मित्रता और आकर्षक विशेषताएं इसे डेटा साइंस में बहुत अक्सर इस्तेमाल किया जाने वाला उपकरण बनाती हैं। पनादास लाइब्रेरी उन सुविधाओं को प्रदान करती है जिनके उपयोग से हम एक्सेल फ़ाइल को पूर्ण रूप में और केवल डेटा के चयनित समूह के लिए भागों में पढ़ सकते हैं। हम इसमें कई शीट के साथ एक एक्सेल फाइल भी पढ़ सकते हैं। हम उपयोग करते हैंread_excel इससे डेटा पढ़ने के लिए कार्य करते हैं।
एक्सेल फ़ाइल के रूप में इनपुट
हम विंडोज़ ओएस में कई शीटों के साथ एक एक्सेल फाइल बनाते हैं। विभिन्न शीट्स में डेटा नीचे दिखाया गया है।
आप विंडोज़ ओएस में एक्सेल प्रोग्राम का उपयोग करके इस फाइल को बना सकते हैं। फ़ाइल को इस रूप में सहेजेंinput.xlsx।
# Data in Sheet1
id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance
# Data in Sheet2
id name zipcode
1 Rick 301224
2 Dan 341255
3 Tusar 297704
4 Ryan 216650
5 Gary 438700
6 Rasmi 665100
7 Pranab 341211
8 Guru 347480
एक्सेल फाइल पढ़ना
read_excelपांडा लाइब्रेरी के फ़ंक्शन का उपयोग पैंथ्स डेटाफ़्रेम के रूप में अजगर वातावरण में एक्सेल फ़ाइल की सामग्री को पढ़ने के लिए किया जाता है। फ़ंक्शन फ़ाइल के लिए उचित पथ का उपयोग करके ओएस से फ़ाइलों को पढ़ सकता है। डिफ़ॉल्ट रूप से, फ़ंक्शन शीट 1 पढ़ेगा।
import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है। कृपया ध्यान दें कि फ़ंक्शन द्वारा इंडेक्स के रूप में शून्य से शुरू होने वाला एक अतिरिक्त कॉलम कैसे बनाया गया है।
id name salary start_date dept
0 1 Rick 623.30 2012-01-01 IT
1 2 Dan 515.20 2013-09-23 Operations
2 3 Tusar 611.00 2014-11-15 IT
3 4 Ryan 729.00 2014-05-11 HR
4 5 Gary 843.25 2015-03-27 Finance
5 6 Rasmi 578.00 2013-05-21 IT
6 7 Pranab 632.80 2013-07-30 Operations
7 8 Guru 722.50 2014-06-17 Finance
विशिष्ट कॉलम और पंक्तियाँ पढ़ना
सीएसवी फ़ाइल को पढ़ने के लिए पिछले अध्याय में हमने जो देखा है, उसके समान read_excelपंडों के पुस्तकालय का कार्य कुछ विशिष्ट स्तंभों और विशिष्ट पंक्तियों को पढ़ने के लिए भी किया जा सकता है। हम मल्टी-एक्सिस इंडेक्सिंग विधि का उपयोग करते हैं जिसे कहा जाता है.loc()इस काम के लिए। हम कुछ पंक्तियों के लिए वेतन और नाम कॉलम प्रदर्शित करते हैं।
import pandas as pd
data = pd.read_excel('path/input.xlsx')
# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
salary name
1 515.2 Dan
3 729.0 Ryan
5 578.0 Rasmi
कई एक्सेल शीट पढ़ना
विभिन्न डेटा स्वरूपों वाली एकाधिक शीटों को read_excel फ़ंक्शन का उपयोग करके भी पढ़ा जा सकता है, जिसका नाम रैपर क्लास है ExcelFile। यह कई शीट्स को केवल एक बार मेमोरी में पढ़ेगा। नीचे दिए गए उदाहरण में हमने शीट 1 और शीट 2 को दो डेटा फ़्रेम में पढ़ा और उन्हें अलग-अलग प्रिंट किया।
import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
df1 = pd.read_excel(xls, 'Sheet1')
df2 = pd.read_excel(xls, 'Sheet2')
print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
****Result Sheet 1****
0 623.30
1 515.20
2 611.00
3 729.00
4 843.25
Name: salary, dtype: float64
***Result Sheet 2****
0 301224
1 341255
2 297704
3 216650
4 438700
Name: zipcode, dtype: int64