Ruby-XML, XSLT 및 XPath 자습서

XML이란 무엇입니까?

XML (Extensible Markup Language)은 HTML 또는 SGML과 매우 유사한 마크 업 언어입니다. 이것은 World Wide Web Consortium에서 권장하며 개방형 표준으로 제공됩니다.

XML은 프로그래머가 운영 체제 및 / 또는 개발 언어에 관계없이 다른 응용 프로그램에서 읽을 수있는 응용 프로그램을 개발할 수 있도록하는 이식 가능한 오픈 소스 언어입니다.

XML은 SQL 기반 백본 없이도 중소 량의 데이터를 추적하는 데 매우 유용합니다.

XML 파서 아키텍처 및 API

XML 파서에는 두 가지 다른 종류가 있습니다.

  • SAX-like (Stream interfaces)− 여기서 관심있는 이벤트에 대한 콜백을 등록한 다음 파서가 문서를 진행하도록합니다. 이것은 문서가 크거나 메모리 제한이있을 때 유용하며, 디스크에서 읽을 때 파일을 구문 분석하고 전체 파일이 메모리에 저장되지 않습니다.

  • DOM-like (Object tree interfaces) − 이것은 전체 파일을 메모리로 읽어 들이고 XML 문서의 모든 기능을 나타내는 계층 적 (트리 기반) 형식으로 저장하는 World Wide Web Consortium 권장 사항입니다.

SAX는 대용량 파일로 작업 할 때 DOM이 할 수있는 것만 큼 빠르게 정보를 처리 할 수 ​​없습니다. 반면에 DOM을 독점적으로 사용하면 특히 많은 작은 파일에 사용되는 경우 리소스를 실제로 죽일 수 있습니다.

SAX는 읽기 전용이지만 DOM은 XML 파일 변경을 허용합니다. 이 두 가지 다른 API는 말 그대로 서로를 보완하기 때문에 대규모 프로젝트에 둘 다 사용할 수없는 이유가 없습니다.

Ruby를 사용하여 XML 구문 분석 및 생성

XML을 조작하는 가장 일반적인 방법은 Sean Russell의 REXML 라이브러리를 사용하는 것입니다. 2002 년부터 REXML은 표준 Ruby 배포판의 일부였습니다.

REXML은 XML 1.0 표준을 따르는 순수 Ruby XML 프로세서입니다. 모든 OASIS 비 검증 적합성 테스트를 통과 한 비 검증 프로세서입니다.

REXML 파서는 사용 가능한 다른 파서에 비해 다음과 같은 장점이 있습니다.

  • Ruby로 100 % 작성되었습니다.
  • SAX 및 DOM 구문 분석 모두에 사용할 수 있습니다.
  • 가볍고 2000 줄 미만의 코드입니다.
  • 메서드와 클래스는 정말 이해하기 쉽습니다.
  • SAX2 기반 API 및 전체 XPath 지원.
  • Ruby 설치와 함께 제공되며 별도의 설치가 필요하지 않습니다.

모든 XML 코드 예제에서 간단한 XML 파일을 입력으로 사용하겠습니다.

<collection shelf = "New Arrivals">
   <movie title = "Enemy Behind">
      <type>War, Thriller</type>
      <format>DVD</format>
      <year>2003</year>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Talk about a US-Japan war</description>
   </movie>
   <movie title = "Transformers">
      <type>Anime, Science Fiction</type>
      <format>DVD</format>
      <year>1989</year>
      <rating>R</rating>
      <stars>8</stars>
      <description>A schientific fiction</description>
   </movie>
   <movie title = "Trigun">
      <type>Anime, Action</type>
      <format>DVD</format>
      <episodes>4</episodes>
      <rating>PG</rating>
      <stars>10</stars>
      <description>Vash the Stampede!</description>
   </movie>
   <movie title = "Ishtar">
      <type>Comedy</type>
      <format>VHS</format>
      <rating>PG</rating>
      <stars>2</stars>
      <description>Viewable boredom</description>
   </movie>
</collection>

DOM과 유사한 구문 분석

먼저 XML 데이터를 트리 방식으로 구문 분석해 보겠습니다 . 우리는rexml/document도서관; 종종 우리는 편의를 위해 최상위 네임 스페이스로 가져 오기 위해 REXML을 포함합니다.

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Now get the root element
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]

# This will output all the movie titles.
xmldoc.elements.each("collection/movie"){ 
   |e| puts "Movie Title : " + e.attributes["title"] 
}

# This will output all the movie types.
xmldoc.elements.each("collection/movie/type") {
   |e| puts "Movie Type : " + e.text 
}

# This will output all the movie description.
xmldoc.elements.each("collection/movie/description") {
   |e| puts "Movie Description : " + e.text 
}

이것은 다음 결과를 생성합니다-

Root element : New Arrivals
Movie Title : Enemy Behind
Movie Title : Transformers
Movie Title : Trigun
Movie Title : Ishtar
Movie Type : War, Thriller
Movie Type : Anime, Science Fiction
Movie Type : Anime, Action
Movie Type : Comedy
Movie Description : Talk about a US-Japan war
Movie Description : A schientific fiction
Movie Description : Vash the Stampede!
Movie Description : Viewable boredom

SAX와 유사한 구문 분석

동일한 데이터 인 movies.xml 파일을 스트림 지향 방식으로 처리하기 위해 메서드가 파서 의 콜백 대상이 될 리스너 클래스를 정의합니다 .

NOTE − 작은 파일에 대해 SAX와 유사한 구문 분석을 사용하지 않는 것이 좋습니다. 이것은 단지 데모 예제 일뿐입니다.

#!/usr/bin/ruby -w

require 'rexml/document'
require 'rexml/streamlistener'
include REXML

class MyListener
   include REXML::StreamListener
   def tag_start(*args)
      puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
   end

   def text(data)
      return if data =~ /^\w*$/     # whitespace only
      abbrev = data[0..40] + (data.length > 40 ? "..." : "")
      puts "  text   :   #{abbrev.inspect}"
   end
end

list = MyListener.new
xmlfile = File.new("movies.xml")
Document.parse_stream(xmlfile, list)

이것은 다음 결과를 생성합니다-

tag_start: "collection", {"shelf"=>"New Arrivals"}
tag_start: "movie", {"title"=>"Enemy Behind"}
tag_start: "type", {}
   text   :   "War, Thriller"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Talk about a US-Japan war"
tag_start: "movie", {"title"=>"Transformers"}
tag_start: "type", {}
   text   :   "Anime, Science Fiction"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "A schientific fiction"
tag_start: "movie", {"title"=>"Trigun"}
tag_start: "type", {}
   text   :   "Anime, Action"
tag_start: "format", {}
tag_start: "episodes", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Vash the Stampede!"
tag_start: "movie", {"title"=>"Ishtar"}
tag_start: "type", {}
tag_start: "format", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
   text   :   "Viewable boredom"

XPath 및 Ruby

XML을 보는 또 다른 방법은 XPath입니다. 이것은 XML 문서에서 특정 요소와 속성을 찾는 방법을 설명하는 일종의 의사 언어로 해당 문서를 논리적으로 정렬 된 트리로 취급합니다.

REXML은 통해 XPath에 지원이 의 XPath 클래스를. 위에서 본 것처럼 트리 기반 구문 분석 (문서 객체 모델)을 가정합니다.

#!/usr/bin/ruby -w

require 'rexml/document'
include REXML

xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)

# Info for the first movie found
movie = XPath.first(xmldoc, "//movie")
p movie

# Print out all the movie types
XPath.each(xmldoc, "//type") { |e| puts e.text }

# Get an array of all of the movie formats.
names = XPath.match(xmldoc, "//format").map {|x| x.text }
p names

이것은 다음 결과를 생성합니다-

<movie title = 'Enemy Behind'> ... </>
War, Thriller
Anime, Science Fiction
Anime, Action
Comedy
["DVD", "DVD", "DVD", "VHS"]

XSLT 및 Ruby

Ruby가 사용할 수있는 두 가지 XSLT 파서가 있습니다. 각각에 대한 간략한 설명이 여기에 제공됩니다.

루비-사블로 트론

이 파서는 다카하시 마사요시가 작성하고 관리합니다. 이것은 주로 Linux OS 용으로 작성되었으며 다음 라이브러리가 필요합니다.

  • Sablot
  • Iconv
  • Expat

이 모듈은 다음에서 찾을 수 있습니다. Ruby-Sablotron.

XSLT4R

XSLT4R은 Michael Neumann이 작성했으며 XML 아래 라이브러리 섹션의 RAA에서 찾을 수 있습니다. XSLT4R은 간단한 명령 줄 인터페이스를 사용하지만 타사 응용 프로그램 내에서 XML 문서를 변환하는 데 사용할 수도 있습니다.

XSLT4R이 작동하려면 XMLScan이 필요합니다. 이는 XSLT4R 아카이브에 포함되어 있으며 100 % Ruby 모듈이기도합니다. 이러한 모듈은 표준 Ruby 설치 방법 (예 : ruby ​​install.rb)을 사용하여 설치할 수 있습니다.

XSLT4R에는 다음 구문이 있습니다.

ruby xslt.rb stylesheet.xsl document.xml [arguments]

애플리케이션 내에서 XSLT4R을 사용하려면 XSLT를 포함하고 필요한 매개 변수를 입력 할 수 있습니다. 다음은 예입니다.

require "xslt"

stylesheet = File.readlines("stylesheet.xsl").to_s
xml_doc = File.readlines("document.xml").to_s
arguments = { 'image_dir' => '/....' }
sheet = XSLT::Stylesheet.new( stylesheet, arguments )

# output to StdOut
sheet.apply( xml_doc )

# output to 'str'
str = ""
sheet.output = [ str ]
sheet.apply( xml_doc )

추가 읽기

  • REXML 파서에 대한 완전한 세부 내용은 표준 설명서를 참조하십시오 REXML 파서 문서 .

  • RAA Repository 에서 XSLT4R을 다운로드 할 수 있습니다 .