Python Data Persistence - ตัวแยกวิเคราะห์ XML
XML เป็นคำย่อของ eXtensible Markup Language. เป็นภาษาแบบพกพาโอเพ่นซอร์สและข้ามแพลตฟอร์มเช่น HTML หรือ SGML และแนะนำโดย World Wide Web Consortium
เป็นรูปแบบการแลกเปลี่ยนข้อมูลที่รู้จักกันดีซึ่งใช้โดยแอปพลิเคชันจำนวนมากเช่นบริการเว็บเครื่องมือสำนักงานและ Service Oriented Architectures(SOA). รูปแบบ XML มีทั้งเครื่องอ่านได้และมนุษย์อ่านได้
แพ็คเกจ xml ของไลบรารี Python มาตรฐานประกอบด้วยโมดูลต่อไปนี้สำหรับการประมวลผล XML -
ซีเนียร์ | โมดูลและคำอธิบาย |
---|---|
1 | xml.etree.ElementTree ElementTree API ซึ่งเป็นโปรเซสเซอร์ XML ที่เรียบง่ายและมีน้ำหนักเบา |
2 | xml.dom ข้อกำหนด DOM API |
3 | xml.dom.minidom การใช้งาน DOM ขั้นต่ำ |
4 | xml.sax การใช้งานอินเทอร์เฟซ SAX2 |
5 | xml.parsers.expat การรวมตัวแยกวิเคราะห์ Expat |
ข้อมูลในเอกสาร XML ถูกจัดเรียงในรูปแบบลำดับชั้นแบบต้นไม้เริ่มต้นด้วยรูทและอิลิเมนต์ แต่ละองค์ประกอบเป็นโหนดเดียวในทรีและมีแอตทริบิวต์อยู่ในแท็ก <> และ </> อาจมีการกำหนดองค์ประกอบย่อยอย่างน้อยหนึ่งรายการให้กับแต่ละองค์ประกอบ
ต่อไปนี้เป็นตัวอย่างทั่วไปของเอกสาร XML -
<?xml version = "1.0" encoding = "iso-8859-1"?>
<studentlist>
<student>
<name>Ratna</name>
<subject>Physics</subject>
<marks>85</marks>
</student>
<student>
<name>Kiran</name>
<subject>Maths</subject>
<marks>100</marks>
</student>
<student>
<name>Mohit</name>
<subject>Biology</subject>
<marks>92</marks>
</student>
</studentlist>
ขณะใช้งาน ElementTreeโมดูลขั้นตอนแรกคือการตั้งค่าองค์ประกอบรากของต้นไม้ แต่ละองค์ประกอบมีแท็กและแอตทริบิวต์ซึ่งเป็นออบเจ็กต์ dict สำหรับองค์ประกอบรากแอตทริบิวต์คือพจนานุกรมว่างเปล่า
import xml.etree.ElementTree as xmlobj
root=xmlobj.Element('studentList')
ตอนนี้เราสามารถเพิ่มองค์ประกอบอย่างน้อยหนึ่งองค์ประกอบภายใต้องค์ประกอบราก วัตถุแต่ละองค์ประกอบอาจมีSubElements. แต่ละองค์ประกอบย่อยมีคุณสมบัติและคุณสมบัติข้อความ
student=xmlobj.Element('student')
nm=xmlobj.SubElement(student, 'name')
nm.text='name'
subject=xmlobj.SubElement(student, 'subject')
nm.text='Ratna'
subject.text='Physics'
marks=xmlobj.SubElement(student, 'marks')
marks.text='85'
องค์ประกอบใหม่นี้ต่อท้ายรูทโดยใช้เมธอด append ()
root.append(student)
ต่อท้ายองค์ประกอบได้มากเท่าที่ต้องการโดยใช้วิธีการด้านบน ในที่สุดอ็อบเจ็กต์รูทอิลิเมนต์จะถูกเขียนลงในไฟล์
tree = xmlobj.ElementTree(root)
file = open('studentlist.xml','wb')
tree.write(file)
file.close()
ตอนนี้เรามาดูวิธีการแยกวิเคราะห์ไฟล์ XML สำหรับสิ่งนั้นให้สร้างแผนผังเอกสารโดยให้ชื่อเป็นพารามิเตอร์ไฟล์ในตัวสร้าง ElementTree
tree = xmlobj.ElementTree(file='studentlist.xml')
วัตถุต้นไม้มี getroot() วิธีการรับองค์ประกอบรูทและ getchildren () ส่งคืนรายการองค์ประกอบด้านล่าง
root = tree.getroot()
children = root.getchildren()
อ็อบเจ็กต์พจนานุกรมที่สอดคล้องกับแต่ละองค์ประกอบย่อยถูกสร้างขึ้นโดยการวนซ้ำคอลเลกชันองค์ประกอบย่อยของโหนดลูกแต่ละโหนด
for child in children:
student={}
pairs = child.getchildren()
for pair in pairs:
product[pair.tag]=pair.text
จากนั้นพจนานุกรมแต่ละรายการจะถูกผนวกเข้ากับรายการที่ส่งคืนรายการต้นฉบับของวัตถุพจนานุกรม
SAXเป็นอินเทอร์เฟซมาตรฐานสำหรับการแยกวิเคราะห์ XML ตามเหตุการณ์ การแยกวิเคราะห์ XML ด้วย SAX ต้องการ ContentHandler โดย subclassing xml.sax.ContentHandler คุณลงทะเบียนการเรียกกลับสำหรับเหตุการณ์ที่น่าสนใจจากนั้นให้โปรแกรมแยกวิเคราะห์ดำเนินการผ่านเอกสาร
SAX มีประโยชน์เมื่อเอกสารของคุณมีขนาดใหญ่หรือคุณมีข้อ จำกัด ด้านหน่วยความจำเนื่องจากจะแยกวิเคราะห์ไฟล์เมื่ออ่านจากดิสก์ดังนั้นไฟล์ทั้งหมดจะไม่ถูกเก็บไว้ในหน่วยความจำ
Document Object Model
(DOM) API เป็นคำแนะนำของ World Wide Web Consortium ในกรณีนี้ไฟล์ทั้งหมดจะถูกอ่านลงในหน่วยความจำและจัดเก็บในรูปแบบลำดับชั้น (ตามต้นไม้) เพื่อแสดงคุณลักษณะทั้งหมดของเอกสาร XML
SAX ไม่เร็วเท่า DOM ที่มีไฟล์ขนาดใหญ่ ในทางกลับกัน DOM สามารถฆ่าทรัพยากรได้หากใช้กับไฟล์ขนาดเล็กจำนวนมาก SAX เป็นแบบอ่านอย่างเดียวในขณะที่ DOM อนุญาตให้เปลี่ยนแปลงไฟล์ XML