TIKA - HTML दस्तावेज़ निकालना
नीचे दिए गए एक HTML दस्तावेज़ से सामग्री और मेटाडेटा निकालने का कार्यक्रम है।
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.html"));
ParseContext pcontext = new ParseContext();
//Html parser
HtmlParser htmlparser = new HtmlParser();
htmlparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
उपरोक्त कोड को इस प्रकार सेव करें HtmlParse.java, और निम्न कमांड का उपयोग करके कमांड प्रॉम्प्ट से इसे संकलित करें -
javac HtmlParse.java
java HtmlParse
नीचे दिया गया है example.txt फ़ाइल का स्नैपशॉट।

HTML दस्तावेज़ में निम्नलिखित गुण हैं

यदि आप उपरोक्त प्रोग्राम को निष्पादित करते हैं तो यह आपको निम्न आउटपुट देगा।
Output -
Contents of the document:
Name Salary age
Ramesh Raman 50000 20
Shabbir Hussein 70000 25
Umesh Raman 50000 30
Somesh 50000 35
Metadata of the document:
title: HTML Table Header
Content-Encoding: windows-1252
Content-Type: text/html; charset = windows-1252
dc:title: HTML Table Header