रूबी - XML, XSLT और XPath ट्यूटोरियल

XML क्या है?

एक्स्टेंसिबल मार्कअप लैंग्वेज (एक्सएमएल) एचटीएमएल या एसजीएमएल जैसी मार्कअप भाषा है। यह वर्ल्ड वाइड वेब कंसोर्टियम द्वारा अनुशंसित है और एक खुले मानक के रूप में उपलब्ध है।

XML एक पोर्टेबल, ओपन सोर्स भाषा है जो प्रोग्रामर को उन एप्लिकेशन को विकसित करने की अनुमति देता है, जो ऑपरेटिंग सिस्टम और / या डेवलपमेंट लैंग्वेज की परवाह किए बिना अन्य एप्लिकेशन द्वारा पढ़े जा सकते हैं।

SQL- आधारित बैकबोन की आवश्यकता के बिना डेटा की छोटी से मध्यम मात्रा का ट्रैक रखने के लिए XML बेहद उपयोगी है।

XML पार्सर आर्किटेक्चर और एपीआई

XML पार्सर के लिए दो अलग-अलग स्वाद उपलब्ध हैं -

  • SAX-like (Stream interfaces)- यहां आप ब्याज की घटनाओं के लिए कॉलबैक दर्ज करते हैं और फिर दस्तावेज़ के माध्यम से पार्सर को आगे बढ़ने देते हैं। यह तब उपयोगी होता है जब आपके दस्तावेज़ बड़े होते हैं या आपकी मेमोरी सीमाएँ होती हैं, यह फ़ाइल को पार्स करता है क्योंकि यह डिस्क से पढ़ता है, और पूरी फ़ाइल कभी मेमोरी में संग्रहीत नहीं होती है।

  • DOM-like (Object tree interfaces) - यह वर्ल्ड वाइड वेब कंसोर्टियम की सिफारिश है जिसमें पूरी फ़ाइल को मेमोरी में पढ़ा जाता है और एक XML दस्तावेज़ की सभी विशेषताओं का प्रतिनिधित्व करने के लिए एक पदानुक्रमित (ट्री-आधारित) रूप में संग्रहीत किया जाता है।

SAX स्पष्ट रूप से बड़ी फ़ाइलों के साथ काम करते समय डोम के रूप में उपवास के रूप में जानकारी को संसाधित नहीं कर सकता है। दूसरी ओर, विशेष रूप से DOM का उपयोग वास्तव में आपके संसाधनों को मार सकता है, खासकर यदि बहुत सारी छोटी फ़ाइलों पर उपयोग किया जाता है।

SAX केवल-पढ़ने के लिए है, जबकि DOM XML फ़ाइल में परिवर्तन की अनुमति देता है। चूंकि ये दो अलग-अलग एपीआई सचमुच एक-दूसरे के पूरक हैं, इसलिए कोई कारण नहीं है कि आप बड़ी परियोजनाओं के लिए उन दोनों का उपयोग नहीं कर सकते हैं।

रूबी का उपयोग करके XML बनाना और बनाना

XML में हेरफेर करने का सबसे आम तरीका सीन रसेल द्वारा REXML लाइब्रेरी है। 2002 के बाद से, REXML मानक रूबी वितरण का हिस्सा रहा है।

आरएक्सएमएल एक शुद्ध-रूबी एक्सएमएल प्रोसेसर है जो एक्सएमएल 1.0 मानक के अनुरूप है। यह एक गैर-वैध प्रोसेसर है, सभी OASIS गैर-वैधता अनुरूपता परीक्षणों से गुजर रहा है।

REXML पार्सर के अन्य उपलब्ध पार्सर्स पर निम्नलिखित लाभ हैं -

  • यह रूबी में 100 प्रतिशत लिखा है।
  • इसका उपयोग SAX और DOM पार्सिंग दोनों के लिए किया जा सकता है।
  • यह हल्का है, 2000 से कम लाइनों का कोड है।
  • तरीके और कक्षाएं वास्तव में आसानी से समझ में आने वाली हैं।
  • SAX2- आधारित एपीआई और पूर्ण XPath समर्थन।
  • रूबी स्थापना के साथ भेज दिया और कोई अलग स्थापना की आवश्यकता नहीं है।

हमारे सभी XML कोड उदाहरणों के लिए, आइए इनपुट के रूप में एक सरल XML फ़ाइल का उपयोग करें -

<collection shelf = "New Arrivals">
   <movie title = "Enemy Behind">
      <type>War, Thriller</type>
      <format>DVD</format>
      <year>2003</year>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Talk about a US-Japan war</description>
   </movie>
   <movie title = "Transformers">
      <type>Anime, Science Fiction</type>
      <format>DVD</format>
      <year>1989</year>
      <rating>R</rating>
      <stars>8</stars>
      <description>A schientific fiction</description>
   </movie>
   <movie title = "Trigun">
      <type>Anime, Action</type>
      <format>DVD</format>
      <episodes>4</episodes>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Vash the Stampede!</description>
   </movie>
   <movie title = "Ishtar">
      <type>Comedy</type>
      <format>VHS</format>
      <rating>PG</rating>
      <stars>2</stars>
      <description>Viewable boredom</description>
   </movie>
</collection>

डोम की तरह पार्सिंग

आइए सबसे पहले ट्री स्टाइल में हमारे XML डेटा को पार्स करें । हमें आवश्यकता होती हैrexml/documentपुस्तकालय; अक्सर हम सुविधा के लिए शीर्ष-स्तरीय नाम स्थान में आयात करने के लिए REXML को शामिल करते हैं।

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Now get the root element
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]

# This will output all the movie titles.
xmldoc.elements.each("collection/movie"){ 
   |e| puts "Movie Title : " + e.attributes["title"] 
}

# This will output all the movie types.
xmldoc.elements.each("collection/movie/type") {
   |e| puts "Movie Type : " + e.text 
}

# This will output all the movie description.
xmldoc.elements.each("collection/movie/description") {
   |e| puts "Movie Description : " + e.text 
}

यह निम्नलिखित परिणाम का उत्पादन करेगा -

Root element : New Arrivals
Movie Title : Enemy Behind
Movie Title : Transformers
Movie Title : Trigun
Movie Title : Ishtar
Movie Type : War, Thriller
Movie Type : Anime, Science Fiction
Movie Type : Anime, Action
Movie Type : Comedy
Movie Description : Talk about a US-Japan war
Movie Description : A schientific fiction
Movie Description : Vash the Stampede!
Movie Description : Viewable boredom

एसएएक्स-जैसे पार्सिंग

समान डेटा, मूवीज। Xml को प्रोसेस करने के लिए , स्ट्रीम-ओरिएंटेड तरीके से फाइल करें, हम एक श्रोता वर्ग को परिभाषित करेंगे, जिसके तरीके पार्सर से कॉलबैक का लक्ष्य होंगे ।

NOTE - यह एक छोटी फ़ाइल के लिए SAX की तरह पार्सिंग का उपयोग करने का सुझाव नहीं दिया गया है, यह सिर्फ एक डेमो उदाहरण के लिए है।

#!/usr/bin/ruby -w

require 'rexml/document'
require 'rexml/streamlistener'
include REXML

class MyListener
   include REXML::StreamListener
   def tag_start(*args)
      puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
   end

   def text(data)
      return if data =~ /^\w*$/     # whitespace only
      abbrev = data[0..40] + (data.length > 40 ? "..." : "")
      puts "  text   :   #{abbrev.inspect}"
   end
end

list = MyListener.new
xmlfile = File.new("movies.xml")
Document.parse_stream(xmlfile, list)

यह निम्नलिखित परिणाम का उत्पादन करेगा -

tag_start: "collection", {"shelf"=>"New Arrivals"}
tag_start: "movie", {"title"=>"Enemy Behind"}
tag_start: "type", {}
   text   :   "War, Thriller"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Talk about a US-Japan war"
tag_start: "movie", {"title"=>"Transformers"}
tag_start: "type", {}
   text   :   "Anime, Science Fiction"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "A schientific fiction"
tag_start: "movie", {"title"=>"Trigun"}
tag_start: "type", {}
   text   :   "Anime, Action"
tag_start: "format", {}
tag_start: "episodes", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Vash the Stampede!"
tag_start: "movie", {"title"=>"Ishtar"}
tag_start: "type", {}
tag_start: "format", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Viewable boredom"

XPath और रूबी

XML को देखने का एक वैकल्पिक तरीका XPath है। यह एक प्रकार की छद्म भाषा है जो यह बताती है कि किसी XML दस्तावेज़ में विशिष्ट तत्वों और विशेषताओं का पता कैसे लगाया जाता है, उस दस्तावेज़ को तार्किक पेड़ के रूप में माना जाता है।

REXML को XPath क्लास के माध्यम से XPath सपोर्ट है । यह पेड़ आधारित पार्सिंग (दस्तावेज़ ऑब्जेक्ट मॉडल) को मानता है जैसा कि हमने ऊपर देखा है।

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Info for the first movie found
movie = XPath.first(xmldoc, "//movie")
p movie

# Print out all the movie types
XPath.each(xmldoc, "//type") { |e| puts e.text }

# Get an array of all of the movie formats.
names = XPath.match(xmldoc, "//format").map {|x| x.text }
p names

यह निम्नलिखित परिणाम का उत्पादन करेगा -

<movie title = 'Enemy Behind'> ... </>
War, Thriller
Anime, Science Fiction
Anime, Action
Comedy
["DVD", "DVD", "DVD", "VHS"]

XSLT और रूबी

दो XSLT पार्सर उपलब्ध हैं जो रूबी उपयोग कर सकते हैं। प्रत्येक का संक्षिप्त विवरण यहां दिया गया है।

रूबी Sablotron

इस पार्सर को मासायोशी ताकाहाशी ने लिखा और बनाए रखा है। यह मुख्य रूप से लिनक्स ओएस के लिए लिखा गया है और इसके लिए निम्न पुस्तकालयों की आवश्यकता है -

  • Sablot
  • Iconv
  • Expat

आप इस मॉड्यूल को पा सकते हैं Ruby-Sablotron

XSLT4R

XSLT4R को माइकल न्यूमैन द्वारा लिखा गया है और इसे XML के तहत लाइब्रेरी अनुभाग में RAA पर पाया जा सकता है। XSLT4R एक सरल कमांडलाइन इंटरफ़ेस का उपयोग करता है, हालांकि इसे वैकल्पिक रूप से XML दस्तावेज़ को बदलने के लिए एक तृतीय-पक्ष एप्लिकेशन के भीतर उपयोग किया जा सकता है।

XSLT4R को संचालित करने के लिए XMLScan की आवश्यकता है, जो XSLT4R संग्रह में शामिल है और जो 100 प्रतिशत Rubb मॉड्यूल भी है। इन मॉड्यूल्स को स्टैंडर्ड रूबी इंस्टॉलेशन मेथड (यानी रूबी इंस्टाल.आरबी) का उपयोग करके इंस्टॉल किया जा सकता है।

XSLT4R में निम्नलिखित सिंटैक्स है -

ruby xslt.rb stylesheet.xsl document.xml [arguments]

यदि आप XSLT4R का उपयोग किसी एप्लिकेशन के भीतर से करना चाहते हैं, तो आप XSLT को शामिल कर सकते हैं और आपको आवश्यक पैरामीटर इनपुट कर सकते हैं। यहाँ उदाहरण है -

require "xslt"

stylesheet = File.readlines("stylesheet.xsl").to_s
xml_doc = File.readlines("document.xml").to_s
arguments = { 'image_dir' => '/....' }
sheet = XSLT::Stylesheet.new( stylesheet, arguments )

# output to StdOut
sheet.apply( xml_doc )

# output to 'str'
str = ""
sheet.output = [ str ]
sheet.apply( xml_doc )

आगे की पढाई

  • REXML पार्सर पर संपूर्ण विवरण के लिए, कृपया REXML Parser प्रलेखन के लिए मानक प्रलेखन देखें ।

  • आप XSLT4R को RAA रिपॉजिटरी से डाउनलोड कर सकते हैं ।