Ruby - Tutorial XML, XSLT dan XPath

Apa itu XML?

Extensible Markup Language (XML) adalah bahasa markup seperti HTML atau SGML. Ini direkomendasikan oleh World Wide Web Consortium dan tersedia sebagai standar terbuka.

XML adalah bahasa sumber terbuka portabel yang memungkinkan pemrogram mengembangkan aplikasi yang dapat dibaca oleh aplikasi lain, apa pun sistem operasi dan / atau bahasa pengembangannya.

XML sangat berguna untuk melacak data dalam jumlah kecil hingga sedang tanpa memerlukan backbone berbasis SQL.

Arsitektur dan API Parser XML

Ada dua rasa berbeda yang tersedia untuk pengurai XML -

  • SAX-like (Stream interfaces)- Di sini Anda mendaftarkan callback untuk acara yang menarik dan kemudian membiarkan pengurai melanjutkan melalui dokumen. Ini berguna ketika dokumen Anda besar atau Anda memiliki keterbatasan memori, ini mengurai file saat membacanya dari disk, dan seluruh file tidak pernah disimpan dalam memori.

  • DOM-like (Object tree interfaces) - Ini adalah rekomendasi Konsorsium World Wide Web di mana seluruh file dibaca ke dalam memori dan disimpan dalam bentuk hierarki (berbasis pohon) untuk mewakili semua fitur dokumen XML.

SAX jelas tidak dapat memproses informasi secepat DOM saat bekerja dengan file besar. Di sisi lain, menggunakan DOM secara eksklusif dapat benar-benar mematikan sumber daya Anda, terutama jika digunakan pada banyak file kecil.

SAX bersifat read-only, sedangkan DOM memungkinkan perubahan pada file XML. Karena dua API yang berbeda ini benar-benar saling melengkapi, tidak ada alasan mengapa Anda tidak dapat menggunakan keduanya untuk proyek besar.

Parsing dan Membuat XML menggunakan Ruby

Cara paling umum untuk memanipulasi XML adalah dengan pustaka REXML oleh Sean Russell. Sejak 2002, REXML telah menjadi bagian dari distribusi Ruby standar.

REXML adalah prosesor XML Ruby murni yang sesuai dengan standar XML 1.0. Ini adalah prosesor non-validasi , lulus semua tes kesesuaian non-validasi OASIS.

Parser REXML memiliki keunggulan berikut dibandingkan parser lain yang tersedia -

  • Itu ditulis 100 persen di Ruby.
  • Ini dapat digunakan untuk penguraian SAX dan DOM.
  • Ini ringan, kurang dari 2000 baris kode.
  • Metode dan kelas sangat mudah dipahami.
  • API berbasis SAX2 dan dukungan Full XPath.
  • Dikirim dengan instalasi Ruby dan tidak diperlukan instalasi terpisah.

Untuk semua contoh kode XML kita, mari gunakan file XML sederhana sebagai input -

<collection shelf = "New Arrivals">
   <movie title = "Enemy Behind">
      <type>War, Thriller</type>
      <format>DVD</format>
      <year>2003</year>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Talk about a US-Japan war</description>
   </movie>
   <movie title = "Transformers">
      <type>Anime, Science Fiction</type>
      <format>DVD</format>
      <year>1989</year>
      <rating>R</rating>
      <stars>8</stars>
      <description>A schientific fiction</description>
   </movie>
   <movie title = "Trigun">
      <type>Anime, Action</type>
      <format>DVD</format>
      <episodes>4</episodes>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Vash the Stampede!</description>
   </movie>
   <movie title = "Ishtar">
      <type>Comedy</type>
      <format>VHS</format>
      <rating>PG</rating>
      <stars>2</stars>
      <description>Viewable boredom</description>
   </movie>
</collection>

Parsing seperti DOM

Pertama mari kita parse data XML kita dalam gaya pohon . Kami mulai dengan memintarexml/documentPerpustakaan; seringkali kami memasukkan REXML untuk diimpor ke namespace tingkat atas untuk kenyamanan.

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Now get the root element
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]

# This will output all the movie titles.
xmldoc.elements.each("collection/movie"){ 
   |e| puts "Movie Title : " + e.attributes["title"] 
}

# This will output all the movie types.
xmldoc.elements.each("collection/movie/type") {
   |e| puts "Movie Type : " + e.text 
}

# This will output all the movie description.
xmldoc.elements.each("collection/movie/description") {
   |e| puts "Movie Description : " + e.text 
}

Ini akan menghasilkan hasil sebagai berikut -

Root element : New Arrivals
Movie Title : Enemy Behind
Movie Title : Transformers
Movie Title : Trigun
Movie Title : Ishtar
Movie Type : War, Thriller
Movie Type : Anime, Science Fiction
Movie Type : Anime, Action
Movie Type : Comedy
Movie Description : Talk about a US-Japan war
Movie Description : A schientific fiction
Movie Description : Vash the Stampede!
Movie Description : Viewable boredom

Parsing seperti SAX

Untuk memproses data yang sama, film.xml , file dengan cara yang berorientasi aliran kita akan mendefinisikan kelas pendengar yang metodenya akan menjadi target panggilan balik dari parser.

NOTE - Tidak disarankan untuk menggunakan penguraian seperti SAX untuk file kecil, ini hanya untuk contoh demo.

#!/usr/bin/ruby -w

require 'rexml/document'
require 'rexml/streamlistener'
include REXML

class MyListener
   include REXML::StreamListener
   def tag_start(*args)
      puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
   end

   def text(data)
      return if data =~ /^\w*$/     # whitespace only
      abbrev = data[0..40] + (data.length > 40 ? "..." : "")
      puts "  text   :   #{abbrev.inspect}"
   end
end

list = MyListener.new
xmlfile = File.new("movies.xml")
Document.parse_stream(xmlfile, list)

Ini akan menghasilkan hasil sebagai berikut -

tag_start: "collection", {"shelf"=>"New Arrivals"}
tag_start: "movie", {"title"=>"Enemy Behind"}
tag_start: "type", {}
   text   :   "War, Thriller"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Talk about a US-Japan war"
tag_start: "movie", {"title"=>"Transformers"}
tag_start: "type", {}
   text   :   "Anime, Science Fiction"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "A schientific fiction"
tag_start: "movie", {"title"=>"Trigun"}
tag_start: "type", {}
   text   :   "Anime, Action"
tag_start: "format", {}
tag_start: "episodes", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Vash the Stampede!"
tag_start: "movie", {"title"=>"Ishtar"}
tag_start: "type", {}
tag_start: "format", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Viewable boredom"

XPath dan Ruby

Cara alternatif untuk melihat XML adalah XPath. Ini adalah jenis pseudo-bahasa yang menjelaskan cara menemukan elemen dan atribut tertentu dalam dokumen XML, memperlakukan dokumen itu sebagai pohon berurutan logis.

REXML memiliki dukungan XPath melalui kelas XPath . Ini mengasumsikan parsing berbasis pohon (model objek dokumen) seperti yang kita lihat di atas.

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Info for the first movie found
movie = XPath.first(xmldoc, "//movie")
p movie

# Print out all the movie types
XPath.each(xmldoc, "//type") { |e| puts e.text }

# Get an array of all of the movie formats.
names = XPath.match(xmldoc, "//format").map {|x| x.text }
p names

Ini akan menghasilkan hasil sebagai berikut -

<movie title = 'Enemy Behind'> ... </>
War, Thriller
Anime, Science Fiction
Anime, Action
Comedy
["DVD", "DVD", "DVD", "VHS"]

XSLT dan Ruby

Ada dua parser XSLT yang bisa digunakan Ruby. Penjelasan singkat masing-masing diberikan di sini.

Ruby-Sablotron

Parser ini ditulis dan dikelola oleh Masayoshi Takahashi. Ini ditulis terutama untuk OS Linux dan membutuhkan pustaka berikut -

  • Sablot
  • Iconv
  • Expat

Anda dapat menemukan modul ini di Ruby-Sablotron.

XSLT4R

XSLT4R ditulis oleh Michael Neumann dan dapat ditemukan di RAA di bagian Library di bawah XML. XSLT4R menggunakan antarmuka baris perintah sederhana, meskipun dapat digunakan sebagai alternatif dalam aplikasi pihak ketiga untuk mengubah dokumen XML.

XSLT4R membutuhkan XMLScan untuk beroperasi, yang disertakan dalam arsip XSLT4R dan yang juga merupakan modul Ruby 100 persen. Modul-modul ini dapat diinstal menggunakan metode instalasi Ruby standar (mis., Ruby install.rb).

XSLT4R memiliki sintaks berikut -

ruby xslt.rb stylesheet.xsl document.xml [arguments]

Jika Anda ingin menggunakan XSLT4R dari dalam aplikasi, Anda dapat menyertakan XSLT dan memasukkan parameter yang Anda butuhkan. Inilah contohnya -

require "xslt"

stylesheet = File.readlines("stylesheet.xsl").to_s
xml_doc = File.readlines("document.xml").to_s
arguments = { 'image_dir' => '/....' }
sheet = XSLT::Stylesheet.new( stylesheet, arguments )

# output to StdOut
sheet.apply( xml_doc )

# output to 'str'
str = ""
sheet.output = [ str ]
sheet.apply( xml_doc )

Bacaan lebih lanjut

  • Untuk detail lengkap tentang REXML Parser, lihat dokumentasi standar untuk REXML Parser Documentation .

  • Anda dapat mengunduh XSLT4R dari RAA Repository .