पायथन - एक्सएलएस डाटा प्रोसेसिंग

Microsoft Excel एक बहुत व्यापक रूप से उपयोग की जाने वाली शीट प्रोग्राम है। इसकी उपयोगकर्ता मित्रता और आकर्षक विशेषताएं इसे डेटा साइंस में बहुत अक्सर इस्तेमाल किया जाने वाला उपकरण बनाती हैं। पनादास लाइब्रेरी उन सुविधाओं को प्रदान करती है जिनके उपयोग से हम एक्सेल फ़ाइल को पूर्ण रूप में और केवल डेटा के चयनित समूह के लिए भागों में पढ़ सकते हैं। हम इसमें कई शीट के साथ एक एक्सेल फाइल भी पढ़ सकते हैं। हम उपयोग करते हैंread_excel इससे डेटा पढ़ने के लिए कार्य करते हैं।

एक्सेल फ़ाइल के रूप में इनपुट

हम विंडोज़ ओएस में कई शीटों के साथ एक एक्सेल फाइल बनाते हैं। विभिन्न शीट्स में डेटा नीचे दिखाया गया है।

आप विंडोज़ ओएस में एक्सेल प्रोग्राम का उपयोग करके इस फाइल को बना सकते हैं। फ़ाइल को इस रूप में सहेजेंinput.xlsx

# Data in Sheet1

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

# Data in Sheet2

id	name	zipcode
1	Rick	301224
2	Dan	341255
3	Tusar	297704
4	Ryan	216650
5	Gary	438700
6	Rasmi	665100
7	Pranab	341211
8	Guru	347480

एक्सेल फाइल पढ़ना

read_excelपांडा लाइब्रेरी के फ़ंक्शन का उपयोग पैंथ्स डेटाफ़्रेम के रूप में अजगर वातावरण में एक्सेल फ़ाइल की सामग्री को पढ़ने के लिए किया जाता है। फ़ंक्शन फ़ाइल के लिए उचित पथ का उपयोग करके ओएस से फ़ाइलों को पढ़ सकता है। डिफ़ॉल्ट रूप से, फ़ंक्शन शीट 1 पढ़ेगा।

import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है। कृपया ध्यान दें कि फ़ंक्शन द्वारा इंडेक्स के रूप में शून्य से शुरू होने वाला एक अतिरिक्त कॉलम कैसे बनाया गया है।

id    name  salary  start_date        dept
0   1    Rick  623.30  2012-01-01          IT
1   2     Dan  515.20  2013-09-23  Operations
2   3   Tusar  611.00  2014-11-15          IT
3   4    Ryan  729.00  2014-05-11          HR
4   5    Gary  843.25  2015-03-27     Finance
5   6   Rasmi  578.00  2013-05-21          IT
6   7  Pranab  632.80  2013-07-30  Operations
7   8    Guru  722.50  2014-06-17     Finance

विशिष्ट कॉलम और पंक्तियाँ पढ़ना

सीएसवी फ़ाइल को पढ़ने के लिए पिछले अध्याय में हमने जो देखा है, उसके समान read_excelपंडों के पुस्तकालय का कार्य कुछ विशिष्ट स्तंभों और विशिष्ट पंक्तियों को पढ़ने के लिए भी किया जा सकता है। हम मल्टी-एक्सिस इंडेक्सिंग विधि का उपयोग करते हैं जिसे कहा जाता है.loc()इस काम के लिए। हम कुछ पंक्तियों के लिए वेतन और नाम कॉलम प्रदर्शित करते हैं।

import pandas as pd
data = pd.read_excel('path/input.xlsx')

# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।

salary   name
1   515.2    Dan
3   729.0   Ryan
5   578.0  Rasmi

कई एक्सेल शीट पढ़ना

विभिन्न डेटा स्वरूपों वाली एकाधिक शीटों को read_excel फ़ंक्शन का उपयोग करके भी पढ़ा जा सकता है, जिसका नाम रैपर क्लास है ExcelFile। यह कई शीट्स को केवल एक बार मेमोरी में पढ़ेगा। नीचे दिए गए उदाहरण में हमने शीट 1 और शीट 2 को दो डेटा फ़्रेम में पढ़ा और उन्हें अलग-अलग प्रिंट किया।

import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
    df1 = pd.read_excel(xls, 'Sheet1')
    df2 = pd.read_excel(xls, 'Sheet2')

print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।

****Result Sheet 1****
0    623.30
1    515.20
2    611.00
3    729.00
4    843.25
Name: salary, dtype: float64

***Result Sheet 2****
0    301224
1    341255
2    297704
3    216650
4    438700
Name: zipcode, dtype: int64