Python - Memproses Data XLS

Microsoft Excel adalah program lembar kerja yang sangat banyak digunakan. Kemudahan penggunanya dan fitur-fiturnya yang menarik menjadikannya alat yang sangat sering digunakan dalam Ilmu Data. Pustaka Panadas menyediakan fitur yang dengannya kita dapat membaca file Excel secara lengkap maupun di bagian-bagian hanya untuk grup Data yang dipilih. Kami juga dapat membaca file Excel dengan beberapa lembar di dalamnya. Kami menggunakanread_excel berfungsi untuk membaca data darinya.

Masukkan sebagai File Excel

Kami Membuat file excel dengan beberapa lembar di OS windows. Data di lembar yang berbeda seperti yang ditunjukkan di bawah ini.

Anda dapat membuat file ini menggunakan Program Excel di OS windows. Simpan file sebagaiinput.xlsx.

# Data in Sheet1

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Tusar,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Rasmi,578,2013-05-21,IT
7,Pranab,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

# Data in Sheet2

id	name	zipcode
1	Rick	301224
2	Dan	341255
3	Tusar	297704
4	Ryan	216650
5	Gary	438700
6	Rasmi	665100
7	Pranab	341211
8	Guru	347480

Membaca File Excel

Itu read_excelfungsi pustaka pandas digunakan untuk membaca konten file Excel ke dalam lingkungan python sebagai DataFrame pandas. Fungsi ini dapat membaca file dari OS dengan menggunakan jalur yang benar ke file tersebut. Secara default, fungsi tersebut akan membaca Sheet1.

import pandas as pd
data = pd.read_excel('path/input.xlsx')
print (data)

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut. Harap perhatikan bagaimana kolom tambahan yang dimulai dengan nol sebagai indeks telah dibuat oleh fungsi tersebut.

id    name  salary  start_date        dept
0   1    Rick  623.30  2012-01-01          IT
1   2     Dan  515.20  2013-09-23  Operations
2   3   Tusar  611.00  2014-11-15          IT
3   4    Ryan  729.00  2014-05-11          HR
4   5    Gary  843.25  2015-03-27     Finance
5   6   Rasmi  578.00  2013-05-21          IT
6   7  Pranab  632.80  2013-07-30  Operations
7   8    Guru  722.50  2014-06-17     Finance

Membaca Kolom dan Baris Tertentu

Mirip dengan apa yang telah kita lihat di bab sebelumnya untuk membaca file CSV, file read_excelfungsi pustaka pandas juga dapat digunakan untuk membaca beberapa kolom dan baris tertentu. Kami menggunakan metode pengindeksan multi-sumbu yang disebut.loc()untuk tujuan ini. Kami memilih untuk menampilkan kolom gaji dan nama untuk beberapa baris.

import pandas as pd
data = pd.read_excel('path/input.xlsx')

# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

salary   name
1   515.2    Dan
3   729.0   Ryan
5   578.0  Rasmi

Membaca Beberapa Lembar Excel

Beberapa lembar dengan format Data berbeda juga dapat dibaca dengan menggunakan fungsi read_excel dengan bantuan kelas pembungkus bernama ExcelFile. Ini akan membaca beberapa lembar ke dalam memori hanya sekali. Pada contoh di bawah ini kita membaca sheet1 dan sheet2 menjadi dua frame data dan mencetaknya satu per satu.

import pandas as pd
with pd.ExcelFile('C:/Users/Rasmi/Documents/pydatasci/input.xlsx') as xls:
    df1 = pd.read_excel(xls, 'Sheet1')
    df2 = pd.read_excel(xls, 'Sheet2')

print("****Result Sheet 1****")
print (df1[0:5]['salary'])
print("")
print("***Result Sheet 2****")
print (df2[0:5]['zipcode'])

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

****Result Sheet 1****
0    623.30
1    515.20
2    611.00
3    729.00
4    843.25
Name: salary, dtype: float64

***Result Sheet 2****
0    301224
1    341255
2    297704
3    216650
4    438700
Name: zipcode, dtype: int64