Python - XLS Verilerini İşleme

Microsoft Excel, çok yaygın olarak kullanılan bir hesap tablosu programıdır. Kullanıcı dostu olması ve çekici özellikleri onu Veri Bilimlerinde çok sık kullanılan bir araç haline getirmektedir. Panadas kitaplığı, Excel dosyasını tam olarak ve yalnızca seçilen bir Veri grubu için parçalar halinde okuyabileceğimiz özellikler sağlar. Ayrıca, içinde birden çok sayfa bulunan bir Excel dosyasını da okuyabiliriz. Kullanıyoruzread_excel Verileri ondan okuma işlevi.

Excel Dosyası olarak gir

Windows işletim sisteminde birden çok sayfa içeren bir excel dosyası oluşturuyoruz. Farklı sayfalardaki veriler aşağıda gösterildiği gibidir.

Bu dosyayı Windows işletim sistemindeki Excel Programını kullanarak oluşturabilirsiniz. Dosyayı farklı kaydedininput.xlsx.

# Data in Sheet1

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

# Data in Sheet2

id	name	zipcode
1	Rick	301224
2	Dan	341255
3	Tusar	297704
4	Ryan	216650
5	Gary	438700
6	Rasmi	665100
7	Pranab	341211
8	Guru	347480

Bir Excel Dosyasını Okumak

read_excelPandas kitaplığının işlevi, bir Excel dosyasının içeriğini pandaların DataFrame'i olarak python ortamına okumak için kullanılır. İşlev, dosyanın uygun yolunu kullanarak dosyaları işletim sisteminden okuyabilir. Varsayılan olarak, işlev Sayfa1'i okuyacaktır.

import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)

Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir. Lütfen fonksiyon tarafından indeks olarak sıfır ile başlayan ek bir sütunun nasıl oluşturulduğuna dikkat edin.

id    name  salary  start_date        dept
0   1    Rick  623.30  2012-01-01          IT
1   2     Dan  515.20  2013-09-23  Operations
2   3   Tusar  611.00  2014-11-15          IT
3   4    Ryan  729.00  2014-05-11          HR
4   5    Gary  843.25  2015-03-27     Finance
5   6   Rasmi  578.00  2013-05-21          IT
6   7  Pranab  632.80  2013-07-30  Operations
7   8    Guru  722.50  2014-06-17     Finance

Belirli Sütunları ve Satırları Okuma

CSV dosyasını okumak için önceki bölümde gördüğümüze benzer şekilde, read_excelPandas kitaplığının işlevi, bazı belirli sütunları ve belirli satırları okumak için de kullanılabilir. Çok eksenli indeksleme yöntemini kullanıyoruz..loc()bu amaç için. Bazı satırlar için maaş ve ad sütununu görüntülemeyi seçiyoruz.

import pandas as pd
data = pd.read_excel('path/input.xlsx')

# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])

Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.

salary   name
1   515.2    Dan
3   729.0   Ryan
5   578.0  Rasmi

Birden Çok Excel Sayfasını Okuma

Farklı Veri formatlarına sahip çoklu sayfalar, adlı bir sarmalayıcı sınıfı yardımıyla read_excel işlevi kullanılarak da okunabilir. ExcelFile. Birden çok sayfayı belleğe yalnızca bir kez okuyacaktır. Aşağıdaki örnekte, sayfa1 ve sayfa2'yi iki veri çerçevesi halinde okuyoruz ve bunları ayrı ayrı yazdırıyoruz.

import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
    df1 = pd.read_excel(xls, 'Sheet1')
    df2 = pd.read_excel(xls, 'Sheet2')

print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])

Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.

****Result Sheet 1****
0    623.30
1    515.20
2    611.00
3    729.00
4    843.25
Name: salary, dtype: float64

***Result Sheet 2****
0    301224
1    341255
2    297704
3    216650
4    438700
Name: zipcode, dtype: int64