पायथन डेटा पर्सिस्टेंस - एक्सएमएल पार्सर्स
XML के लिए है eXtensible Markup Language। यह HTML, और SGML की तरह एक पोर्टेबल, ओपन सोर्स और क्रॉस प्लेटफॉर्म भाषा है और वर्ल्ड वाइड वेब कंसोर्टियम द्वारा अनुशंसित है।
यह एक प्रसिद्ध डेटा इंटरचेंज प्रारूप है, जिसका उपयोग बड़ी संख्या में अनुप्रयोगों जैसे कि वेब सेवा, कार्यालय उपकरण और द्वारा किया जाता है Service Oriented Architectures(SOA)। XML प्रारूप मशीन पठनीय और मानव पठनीय दोनों है।
मानक पायथन लाइब्रेरी के xml पैकेज में XML प्रोसेसिंग के लिए निम्नलिखित मॉड्यूल शामिल हैं -
अनु क्रमांक। | मॉड्यूल और विवरण |
---|---|
1 |
xml.etree.ElementTree एलीमट्री एपीआई, एक सरल और हल्का XML प्रोसेसर |
2 |
xml.dom DOM API परिभाषा |
3 |
xml.dom.minidom एक न्यूनतम डोम कार्यान्वयन |
4 |
xml.sax SAX2 इंटरफ़ेस कार्यान्वयन |
5 |
xml.parsers.expat द एक्सपैट पारसर बाइंडिंग |
एक्सएमएल दस्तावेज़ में डेटा एक पेड़ की तरह पदानुक्रमित प्रारूप में व्यवस्थित होता है, जो रूट और तत्वों से शुरू होता है। प्रत्येक तत्व पेड़ में एक एकल नोड है और इसमें एक विशेषता है <> और </> टैग संलग्न हैं। एक या अधिक उप-तत्व प्रत्येक तत्व को सौंपा जा सकता है।
XML दस्तावेज़ का एक विशिष्ट उदाहरण निम्नलिखित है -
<?xml version = "1.0" encoding = "iso-8859-1"?>
<studentlist>
<student>
<name>Ratna</name>
<subject>Physics</subject>
<marks>85</marks>
</student>
<student>
<name>Kiran</name>
<subject>Maths</subject>
<marks>100</marks>
</student>
<student>
<name>Mohit</name>
<subject>Biology</subject>
<marks>92</marks>
</student>
</studentlist>
प्रयोग करते समय ElementTreeमॉड्यूल, पहला कदम पेड़ के मूल तत्व को स्थापित करना है। प्रत्येक तत्व में एक टैग और अट्रिब्यूट होता है जो एक तानाशाह वस्तु है। मूल तत्व के लिए, एक अट्रिब्यूट एक खाली शब्दकोष है।
import xml.etree.ElementTree as xmlobj
root=xmlobj.Element('studentList')
अब, हम मूल तत्व के तहत एक या अधिक तत्व जोड़ सकते हैं। प्रत्येक तत्व वस्तु हो सकती हैSubElements। प्रत्येक सबलेमेंट में एक विशेषता और पाठ गुण होता है।
student=xmlobj.Element('student')
nm=xmlobj.SubElement(student, 'name')
nm.text='name'
subject=xmlobj.SubElement(student, 'subject')
nm.text='Ratna'
subject.text='Physics'
marks=xmlobj.SubElement(student, 'marks')
marks.text='85'
इस नए तत्व को एपेंड () विधि का उपयोग करके रूट से जोड़ा गया है।
root.append(student)
उपरोक्त विधि का उपयोग करके वांछित के रूप में कई तत्वों को जोड़ें। अंत में, रूट एलिमेंट ऑब्जेक्ट को किसी फ़ाइल में लिखा जाता है।
tree = xmlobj.ElementTree(root)
file = open('studentlist.xml','wb')
tree.write(file)
file.close()
अब, हम देखते हैं कि XML फ़ाइल को पार्स कैसे किया जाए। उसके लिए, ElementTree कंस्ट्रक्टर में फ़ाइल पैरामीटर के रूप में अपना नाम देने वाले दस्तावेज़ ट्री का निर्माण करें।
tree = xmlobj.ElementTree(file='studentlist.xml')
वृक्ष वस्तु है getroot() रूट एलीमेंट और गेटशिल्ड्रन प्राप्त करने की विधि () इसके नीचे के तत्वों की सूची देता है।
root = tree.getroot()
children = root.getchildren()
प्रत्येक उप तत्व से संबंधित एक डिक्शनरी ऑब्जेक्ट का निर्माण प्रत्येक बाल नोड के उप-तत्व संग्रह पर पुनरावृति द्वारा किया जाता है।
for child in children:
student={}
pairs = child.getchildren()
for pair in pairs:
product[pair.tag]=pair.text
प्रत्येक शब्दकोश को तब शब्दकोश वस्तुओं की मूल सूची लौटाने वाली सूची में जोड़ा जाता है।
SAXइवेंट-संचालित XML पार्सिंग के लिए एक मानक इंटरफ़ेस है। SAX के साथ XML को पार्स करने के लिए xml.sax.ContentHandler को उप-लिंक करके ContentHandler की आवश्यकता होती है। आप ब्याज की घटनाओं के लिए कॉलबैक रजिस्टर करते हैं और फिर, दस्तावेज़ के माध्यम से पार्सर को आगे बढ़ने देते हैं।
SAX तब उपयोगी होता है जब आपके दस्तावेज़ बड़े होते हैं या आपकी मेमोरी सीमाएँ होती हैं क्योंकि यह फ़ाइल को पार्स करता है क्योंकि यह डिस्क से इसे पढ़ता है जिसके परिणामस्वरूप संपूर्ण फ़ाइल मेमोरी में कभी संग्रहीत नहीं होती है।
दस्तावेज़ ऑब्जेक्ट मॉडल
(DOM) API एक वर्ल्ड वाइड वेब कंसोर्टियम सिफारिश है। इस स्थिति में, संपूर्ण फ़ाइल को मेमोरी में पढ़ा जाता है और एक XML दस्तावेज़ की सभी विशेषताओं का प्रतिनिधित्व करने के लिए एक पदानुक्रमित (ट्री-आधारित) फ़ॉर्म में संग्रहीत किया जाता है।
SAX, बड़ी फ़ाइलों के साथ DOM जितना तेज़ नहीं है। दूसरी ओर, डोम कई छोटी फ़ाइलों पर उपयोग किए जाने पर संसाधनों को मार सकते हैं। SAX केवल-पढ़ने के लिए है, जबकि DOM XML फ़ाइल में परिवर्तन की अनुमति देता है।