Python - การประมวลผลข้อมูล JSON
ไฟล์ JSON เก็บข้อมูลเป็นข้อความในรูปแบบที่มนุษย์อ่านได้ JSON ย่อมาจาก JavaScript Object Notation แพนด้าสามารถอ่านไฟล์ JSON โดยใช้ไฟล์read_json ฟังก์ชัน
ป้อนข้อมูล
สร้างไฟล์ JSON โดยคัดลอกข้อมูลด้านล่างลงในโปรแกรมแก้ไขข้อความเช่น notepad บันทึกไฟล์ด้วย.json และเลือกประเภทไฟล์เป็น all files(*.*).
{
"ID":["1","2","3","4","5","6","7","8" ],
"Name":["Rick","Dan","Michelle","Ryan","Gary","Nina","Simon","Guru" ]
"Salary":["623.3","515.2","611","729","843.25","578","632.8","722.5" ],
"StartDate":[ "1/1/2012","9/23/2013","11/15/2014","5/11/2014","3/27/2015","5/21/2013",
"7/30/2013","6/17/2014"],
"Dept":[ "IT","Operations","IT","HR","Finance","IT","Operations","Finance"]
}
อ่านไฟล์ JSON
read_json ฟังก์ชันของไลบรารีแพนด้าสามารถใช้เพื่ออ่านไฟล์ JSON ลงใน DataFrame ของแพนด้าได้
import pandas as pd
data = pd.read_json('path/input.json')
print (data)
เมื่อเรารันโค้ดด้านบนจะให้ผลลัพธ์ดังต่อไปนี้
Dept ID Name Salary StartDate
0 IT 1 Rick 623.30 1/1/2012
1 Operations 2 Dan 515.20 9/23/2013
2 IT 3 Tusar 611.00 11/15/2014
3 HR 4 Ryan 729.00 5/11/2014
4 Finance 5 Gary 843.25 3/27/2015
5 IT 6 Rasmi 578.00 5/21/2013
6 Operations 7 Pranab 632.80 7/30/2013
7 Finance 8 Guru 722.50 6/17/2014
การอ่านคอลัมน์และแถวเฉพาะ
คล้ายกับที่เราได้เห็นไปแล้วในบทก่อนหน้าในการอ่านไฟล์ CSV ไฟล์ read_jsonนอกจากนี้ยังสามารถใช้ฟังก์ชันของไลบรารีแพนด้าเพื่ออ่านคอลัมน์เฉพาะบางคอลัมน์และแถวที่ระบุหลังจากที่ไฟล์ JSON ถูกอ่านไปยัง DataFrame เราใช้วิธีการสร้างดัชนีหลายแกนที่เรียกว่า.loc()เพื่อจุดประสงค์นี้. เราเลือกที่จะแสดงคอลัมน์เงินเดือนและชื่อสำหรับบางแถว
import pandas as pd
data = pd.read_json('path/input.xlsx')
# Use the multi-axes indexing funtion
print (data.loc[[1,3,5],['salary','name']])
เมื่อเรารันโค้ดด้านบนจะให้ผลลัพธ์ดังต่อไปนี้
salary name
1 515.2 Dan
3 729.0 Ryan
5 578.0 Rasmi
การอ่านไฟล์ JSON เป็น Records
นอกจากนี้เรายังสามารถใช้ไฟล์ to_json ฟังก์ชันพร้อมกับพารามิเตอร์เพื่ออ่านเนื้อหาไฟล์ JSON ลงในแต่ละระเบียน
import pandas as pd
data = pd.read_json('path/input.xlsx')
print(data.to_json(orient='records', lines=True))
เมื่อเรารันโค้ดด้านบนจะให้ผลลัพธ์ดังต่อไปนี้
{"Dept":"IT","ID":1,"Name":"Rick","Salary":623.3,"StartDate":"1\/1\/2012"}
{"Dept":"Operations","ID":2,"Name":"Dan","Salary":515.2,"StartDate":"9\/23\/2013"}
{"Dept":"IT","ID":3,"Name":"Tusar","Salary":611.0,"StartDate":"11\/15\/2014"}
{"Dept":"HR","ID":4,"Name":"Ryan","Salary":729.0,"StartDate":"5\/11\/2014"}
{"Dept":"Finance","ID":5,"Name":"Gary","Salary":843.25,"StartDate":"3\/27\/2015"}
{"Dept":"IT","ID":6,"Name":"Rasmi","Salary":578.0,"StartDate":"5\/21\/2013"}
{"Dept":"Operations","ID":7,"Name":"Pranab","Salary":632.8,"StartDate":"7\/30\/2013"}
{"Dept":"Finance","ID":8,"Name":"Guru","Salary":722.5,"StartDate":"6\/17\/2014"}