Python - XLS Verilerini İşleme
Microsoft Excel, çok yaygın olarak kullanılan bir hesap tablosu programıdır. Kullanıcı dostu olması ve çekici özellikleri onu Veri Bilimlerinde çok sık kullanılan bir araç haline getirmektedir. Panadas kitaplığı, Excel dosyasını tam olarak ve yalnızca seçilen bir Veri grubu için parçalar halinde okuyabileceğimiz özellikler sağlar. Ayrıca, içinde birden çok sayfa bulunan bir Excel dosyasını da okuyabiliriz. Kullanıyoruzread_excel Verileri ondan okuma işlevi.
Excel Dosyası olarak gir
Windows işletim sisteminde birden çok sayfa içeren bir excel dosyası oluşturuyoruz. Farklı sayfalardaki veriler aşağıda gösterildiği gibidir.
Bu dosyayı Windows işletim sistemindeki Excel Programını kullanarak oluşturabilirsiniz. Dosyayı farklı kaydedininput.xlsx.
# Data in Sheet1
id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance
# Data in Sheet2
id name zipcode
1 Rick 301224
2 Dan 341255
3 Tusar 297704
4 Ryan 216650
5 Gary 438700
6 Rasmi 665100
7 Pranab 341211
8 Guru 347480
Bir Excel Dosyasını Okumak
read_excelPandas kitaplığının işlevi, bir Excel dosyasının içeriğini pandaların DataFrame'i olarak python ortamına okumak için kullanılır. İşlev, dosyanın uygun yolunu kullanarak dosyaları işletim sisteminden okuyabilir. Varsayılan olarak, işlev Sayfa1'i okuyacaktır.
import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)
Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir. Lütfen fonksiyon tarafından indeks olarak sıfır ile başlayan ek bir sütunun nasıl oluşturulduğuna dikkat edin.
id name salary start_date dept
0 1 Rick 623.30 2012-01-01 IT
1 2 Dan 515.20 2013-09-23 Operations
2 3 Tusar 611.00 2014-11-15 IT
3 4 Ryan 729.00 2014-05-11 HR
4 5 Gary 843.25 2015-03-27 Finance
5 6 Rasmi 578.00 2013-05-21 IT
6 7 Pranab 632.80 2013-07-30 Operations
7 8 Guru 722.50 2014-06-17 Finance
Belirli Sütunları ve Satırları Okuma
CSV dosyasını okumak için önceki bölümde gördüğümüze benzer şekilde, read_excelPandas kitaplığının işlevi, bazı belirli sütunları ve belirli satırları okumak için de kullanılabilir. Çok eksenli indeksleme yöntemini kullanıyoruz..loc()bu amaç için. Bazı satırlar için maaş ve ad sütununu görüntülemeyi seçiyoruz.
import pandas as pd
data = pd.read_excel('path/input.xlsx')
# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])
Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.
salary name
1 515.2 Dan
3 729.0 Ryan
5 578.0 Rasmi
Birden Çok Excel Sayfasını Okuma
Farklı Veri formatlarına sahip çoklu sayfalar, adlı bir sarmalayıcı sınıfı yardımıyla read_excel işlevi kullanılarak da okunabilir. ExcelFile. Birden çok sayfayı belleğe yalnızca bir kez okuyacaktır. Aşağıdaki örnekte, sayfa1 ve sayfa2'yi iki veri çerçevesi halinde okuyoruz ve bunları ayrı ayrı yazdırıyoruz.
import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
df1 = pd.read_excel(xls, 'Sheet1')
df2 = pd.read_excel(xls, 'Sheet2')
print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])
Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.
****Result Sheet 1****
0 623.30
1 515.20
2 611.00
3 729.00
4 843.25
Name: salary, dtype: float64
***Result Sheet 2****
0 301224
1 341255
2 297704
3 216650
4 438700
Name: zipcode, dtype: int64