तिका - मेटाडाटा एक्सट्रैक्शन
सामग्री के अलावा, टीका एक फ़ाइल से मेटाडेटा भी निकालता है। मेटाडेटा एक फ़ाइल के साथ आपूर्ति की गई अतिरिक्त जानकारी के अलावा कुछ भी नहीं है। यदि हम एक ऑडियो फ़ाइल पर विचार करते हैं, तो कलाकार का नाम, एल्बम का नाम, शीर्षक मेटाडेटा के अंतर्गत आता है।
XMP मानक
एक्स्टेंसिबल मेटाडेटा प्लेटफ़ॉर्म (XMP) किसी फ़ाइल की सामग्री से संबंधित जानकारी के प्रसंस्करण और भंडारण के लिए एक मानक है। यह Adobe Systems Inc द्वारा बनाया गया था । XMP मेटाडेटा को परिभाषित करने, बनाने और प्रसंस्करण के लिए मानक प्रदान करता है । आप इस मानक को कई फ़ाइल स्वरूपों जैसे PDF , JPEG , JPEG , GIF , jpg , HTML आदि में एम्बेड कर सकते हैं ।
संपत्ति वर्ग
Tika XMP संपत्ति परिभाषा का पालन करने के लिए संपत्ति वर्ग का उपयोग करता है। यह मेटाडेटा का नाम और मान कैप्चर करने के लिए PropertyType और ValueType enums प्रदान करता है ।
मेटाडेटा क्लास
यह वर्ग विभिन्न मेटाडाटा मॉडल के लिए समर्थन प्रदान करने के लिए विभिन्न इंटरफेस जैसे कि क्लाइमेटफ़ोरकास्ट , सिस्टिककॉमन, जियोग्राफिक , टीआईएफएफ आदि को लागू करता है। इसके अलावा, यह वर्ग किसी फ़ाइल से सामग्री निकालने के लिए विभिन्न तरीके प्रदान करता है।
मेटाडेटा नाम
हम फ़ाइल के सभी मेटाडेटा नामों की सूची को उसके मेटाडेटा ऑब्जेक्ट से विधि के नाम () का उपयोग करके निकाल सकते हैं । यह एक स्ट्रिंग ऐरे के रूप में सभी नाम देता है। मेटाडेटा के नाम का उपयोग करके, हम मूल्य का उपयोग कर प्राप्त कर सकते हैंget()तरीका। यह मेटाडेटा नाम लेता है और इसके साथ जुड़ा हुआ मान लौटाता है।
String[] metadaNames = metadata.names();
String value = metadata.get(name);
पार्स विधि का उपयोग करके मेटाडेटा निकालना
जब भी हम पार्स () का उपयोग करके किसी फ़ाइल को पार्स करते हैं, तो हम एक पैरामीटर के रूप में एक खाली मेटाडेटा ऑब्जेक्ट पास करते हैं। यह विधि दी गई फ़ाइल के मेटाडेटा को निकालती है (यदि उस फ़ाइल में कोई भी हो), और उन्हें मेटाडेटा ऑब्जेक्ट में रखता है। इसलिए, पार्स () का उपयोग करके फ़ाइल को पार्स करने के बाद, हम उस ऑब्जेक्ट से मेटाडेटा निकाल सकते हैं।
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata(); //empty metadata object
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();
नीचे दिए गए पाठ फ़ाइल से मेटाडेटा निकालने का पूरा कार्यक्रम है।
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class GetMetadata {
public static void main(final String[] args) throws IOException, TikaException {
//Assume that boy.jpg is in your current directory
File file = new File("boy.jpg");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
System.out.println(handler.toString());
//getting the list of all meta data elements
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
उपरोक्त कोड को GetMetadata.java के रूप में सहेजें और इसे कमांड प्रॉम्प्ट से निम्न कमांड का उपयोग करके चलाएं -
javac GetMetadata .java
java GetMetadata
नीचे दिया गया है boy.jpg का स्नैपशॉट
यदि आप उपरोक्त कार्यक्रम को निष्पादित करते हैं, तो यह आपको निम्न आउटपुट देगा -
X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots
हम अपने इच्छित मेटाडेटा मान भी प्राप्त कर सकते हैं।
नया मेटाडेटा मान जोड़ना
हम मेटाडेटा वर्ग के ऐड () पद्धति का उपयोग करके नए मेटाडेटा मान जोड़ सकते हैं। नीचे दिया गया इस पद्धति का वाक्य विन्यास है। यहां हम लेखक का नाम जोड़ रहे हैं।
metadata.add(“author”,”Tutorials point”);
मेटाडेटा वर्ग ने विभिन्न डेटा मॉडल का समर्थन करने के लिए क्लाइमेटफ़ोरकास्ट , CativeCommons, जियोग्राफिक , आदि जैसे वर्गों से विरासत में मिली संपत्तियों सहित पूर्वनिर्धारित गुण हैं । नीचे दिखाया गया है कि TIFF इंटरफ़ेस द्वारा लागू TIFF इंटरफ़ेस से विरासत में प्राप्त सॉफ़्टवेयर डेटा प्रकार का उपयोग TIFF छवि प्रारूपों के लिए XMP मेटाडेटा मानकों का पालन करने के लिए किया गया है।
metadata.add(Metadata.SOFTWARE,"ms paint");
नीचे दिया गया पूरा कार्यक्रम है जो यह दर्शाता है कि किसी फ़ाइल में मेटाडेटा मान कैसे जोड़ें। यहां मेटाडेटा तत्वों की सूची आउटपुट में प्रदर्शित की जाती है ताकि आप नए मूल्यों को जोड़ने के बाद सूची में परिवर्तन का निरीक्षण कर सकें।
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AddMetadata {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//create a file object and assume sample.txt is in your current directory
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the document
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements before adding new elements
System.out.println( " metadata elements :" +Arrays.toString(metadata.names()));
//adding new meta data name value pair
metadata.add("Author","Tutorials Point");
System.out.println(" metadata name value pair is successfully added");
//printing all the meta data elements after adding new elements
System.out.println("Here is the list of all the metadata
elements after adding new elements");
System.out.println( Arrays.toString(metadata.names()));
}
}
उपरोक्त कोड को AddMetadata.java वर्ग के रूप में सहेजें और कमांड प्रॉम्प्ट से चलाएं -
javac AddMetadata .java
java AddMetadata
नीचे दिया गया है Example.txt की सामग्री
Hi students welcome to tutorialspoint
यदि आप उपरोक्त कार्यक्रम को निष्पादित करते हैं, तो यह आपको निम्न आउटपुट देगा -
metadata elements of the given file :
[Content-Encoding, Content-Type]
enter the number of metadata name value pairs to be added 1
enter metadata1name:
Author enter metadata1value:
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements after adding new elements
[Content-Encoding, Author, Content-Type]
मौजूदा मेटाडेटा तत्वों के लिए मान सेट करना
आप सेट () पद्धति का उपयोग करके मौजूदा मेटाडेटा तत्वों में मान सेट कर सकते हैं। सेट () विधि का उपयोग करके दिनांक संपत्ति सेट करने का सिंटैक्स निम्नानुसार है -
metadata.set(Metadata.DATE, new Date());
आप सेट () पद्धति का उपयोग करके गुणों के लिए कई मान भी सेट कर सकते हैं। सेट () विधि का उपयोग करके लेखक की संपत्ति में कई मान सेट करने का सिंटैक्स निम्नानुसार है -
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
नीचे दिए गए सेट () विधि का प्रदर्शन करने वाला पूरा कार्यक्रम है।
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Date;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class SetMetadata {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Create a file object and assume example.txt is in your current directory
File file = new File("example.txt");
//parameters of parse() method
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//Parsing the given file
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements elements
System.out.println( " metadata elements and values of the given file :");
String[] metadataNamesb4 = metadata.names();
for(String name : metadataNamesb4) {
System.out.println(name + ": " + metadata.get(name));
}
//setting date meta data
metadata.set(Metadata.DATE, new Date());
//setting multiple values to author property
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
//printing all the meta data elements with new elements
System.out.println("List of all the metadata elements after adding new elements ");
String[] metadataNamesafter = metadata.names();
for(String name : metadataNamesafter) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
उपरोक्त कोड को SetMetadata.java के रूप में सहेजें और कमांड प्रॉम्प्ट से चलाएं -
javac SetMetadata.java
java SetMetadata
नीचे दिया गया है example.txt की सामग्री।
Hi students welcome to tutorialspoint
यदि आप उपरोक्त प्रोग्राम को निष्पादित करते हैं तो यह आपको निम्न आउटपुट देगा। आउटपुट में, आप नए जोड़े गए मेटाडेटा तत्वों का निरीक्षण कर सकते हैं।
metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements after adding new elements
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin
Content-Type: text/plain; charset = ISO-8859-1