आर - एक्सएमएल फाइलें

XML एक फ़ाइल स्वरूप है जो वर्ल्ड वाइड वेब, इंट्रानेट और अन्य जगहों पर फ़ाइल प्रारूप और डेटा दोनों को साझा करता है और मानक ASIIII पाठ का उपयोग करता है। यह एक्स्टेंसिबल मार्कअप लैंग्वेज (एक्सएमएल) के लिए है। HTML के समान इसमें मार्कअप टैग शामिल हैं। लेकिन HTML के विपरीत जहां मार्कअप टैग पेज की संरचना का वर्णन करता है, वहीं xml में मार्कअप टैग में उस फ़ाइल में मौजूद डेटा का अर्थ बताया गया है।

आप "XML" पैकेज का उपयोग करके आर में एक xml फ़ाइल पढ़ सकते हैं। यह पैकेज निम्नलिखित कमांड का उपयोग करके स्थापित किया जा सकता है।

install.packages("XML")

इनपुट डेटा

नोटपैड जैसे टेक्स्ट एडिटर में नीचे डेटा कॉपी करके एक एक्सएमएल फ़ाइल बनाएं। फ़ाइल को एक के साथ सहेजें.xml फ़ाइल प्रकार को विस्तार और चुनना all files(*.*)

<RECORDS>
   <EMPLOYEE>
      <ID>1</ID>
      <NAME>Rick</NAME>
      <SALARY>623.3</SALARY>
      <STARTDATE>1/1/2012</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
	
   <EMPLOYEE>
      <ID>2</ID>
      <NAME>Dan</NAME>
      <SALARY>515.2</SALARY>
      <STARTDATE>9/23/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>3</ID>
      <NAME>Michelle</NAME>
      <SALARY>611</SALARY>
      <STARTDATE>11/15/2014</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>4</ID>
      <NAME>Ryan</NAME>
      <SALARY>729</SALARY>
      <STARTDATE>5/11/2014</STARTDATE>
      <DEPT>HR</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>5</ID>
      <NAME>Gary</NAME>
      <SALARY>843.25</SALARY>
      <STARTDATE>3/27/2015</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>6</ID>
      <NAME>Nina</NAME>
      <SALARY>578</SALARY>
      <STARTDATE>5/21/2013</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>7</ID>
      <NAME>Simon</NAME>
      <SALARY>632.8</SALARY>
      <STARTDATE>7/30/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>8</ID>
      <NAME>Guru</NAME>
      <SALARY>722.5</SALARY>
      <STARTDATE>6/17/2014</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
	
</RECORDS>

XML फ़ाइल पढ़ना

Xml फ़ाइल को फ़ंक्शन का उपयोग करके R द्वारा पढ़ा जाता है xmlParse()। यह आर में एक सूची के रूप में संग्रहीत है।

# Load the package required to read XML files.
library("XML")

# Also load the other required package.
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Print the result.
print(result)

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

1
Rick
623.3
1/1/2012
IT

2
Dan
515.2
9/23/2013
Operations

3
Michelle
611
11/15/2014
IT

4
Ryan
729
5/11/2014
HR

5
Gary
843.25
3/27/2015
Finance

6
Nina
578
5/21/2013
IT

7
Simon
632.8
7/30/2013
Operations

8
Guru
722.5
6/17/2014
Finance

XML फ़ाइल में मौजूद नोड्स की संख्या प्राप्त करें

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Find number of nodes in the root.
rootsize <- xmlSize(rootnode)

# Print the result.
print(rootsize)

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

output
[1] 8

पहले नोड का विवरण

आइए, पार्स की गई फ़ाइल के पहले रिकॉर्ड को देखें। यह हमें शीर्ष स्तर के नोड में मौजूद विभिन्न तत्वों का विचार देगा।

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Print the result.
print(rootnode[1])

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

$EMPLOYEE
   1
   Rick
   623.3
   1/1/2012
   IT
 

attr(,"class")
[1] "XMLInternalNodeList" "XMLNodeList"

एक नोड के विभिन्न तत्वों को प्राप्त करें

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Get the first element of the first node.
print(rootnode[[1]][[1]])

# Get the fifth element of the first node.
print(rootnode[[1]][[5]])

# Get the second element of the third node.
print(rootnode[[3]][[2]])

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

1 
IT 
Michelle

XML डेटा फ़्रेम के लिए

बड़ी फ़ाइलों में डेटा को प्रभावी ढंग से संभालने के लिए हम डेटा फ्रेम के रूप में xml फ़ाइल में डेटा पढ़ते हैं। फिर डेटा विश्लेषण के लिए डेटा फ़्रेम की प्रक्रिया करें।

# Load the packages required to read XML files.
library("XML")
library("methods")

# Convert the input xml file to a data frame.
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

ID    NAME     SALARY    STARTDATE       DEPT 
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

जैसा कि डेटा अब डेटाफ़्रेम के रूप में उपलब्ध है हम फ़ाइल को पढ़ने और हेरफेर करने के लिए डेटा फ़्रेम संबंधित फ़ंक्शन का उपयोग कर सकते हैं।