TIKA - Guía rápida

¿Qué es Apache Tika?

  • Apache Tika es una biblioteca que se utiliza para la detección de tipos de documentos y la extracción de contenido de varios formatos de archivo.

  • Internamente, Tika utiliza varios analizadores de documentos y técnicas de detección de tipos de documentos existentes para detectar y extraer datos.

  • Con Tika, se puede desarrollar un detector de tipos universal y un extractor de contenido para extraer tanto texto estructurado como metadatos de diferentes tipos de documentos, como hojas de cálculo, documentos de texto, imágenes, PDF e incluso formatos de entrada multimedia hasta cierto punto.

  • Tika proporciona una única API genérica para analizar diferentes formatos de archivo. Utiliza bibliotecas de analizadores especializados existentes para cada tipo de documento.

  • Todas estas bibliotecas de analizadores se encapsulan en una única interfaz denominada Parser interface.

¿Por qué Tika?

Según filext.com, hay alrededor de 15.000 a 51.000 tipos de contenido, y este número crece día a día. Los datos se almacenan en varios formatos, como documentos de texto, hojas de cálculo de Excel, PDF, imágenes y archivos multimedia, por nombrar algunos. Por lo tanto, las aplicaciones como los motores de búsqueda y los sistemas de administración de contenido necesitan soporte adicional para una fácil extracción de datos de estos tipos de documentos. Apache Tika cumple este propósito al proporcionar una API genérica para localizar y extraer datos de múltiples formatos de archivo.

Aplicaciones de Apache Tika

Hay varias aplicaciones que hacen uso de Apache Tika. Aquí discutiremos algunas aplicaciones importantes que dependen en gran medida de Apache Tika.

Los motores de búsqueda

Tika se usa ampliamente en el desarrollo de motores de búsqueda para indexar el contenido de texto de documentos digitales.

  • Los motores de búsqueda son sistemas de procesamiento de información diseñados para buscar información y documentos indexados de la Web.

  • El rastreador es un componente importante de un motor de búsqueda que rastrea la Web para buscar los documentos que se van a indexar mediante alguna técnica de indexación. A partir de entonces, el rastreador transfiere estos documentos indexados a un componente de extracción.

  • El deber del componente de extracción es extraer el texto y los metadatos del documento. Este contenido y metadatos extraídos son muy útiles para un motor de búsqueda. Este componente de extracción contiene Tika.

  • El contenido extraído luego se pasa al indexador del motor de búsqueda que lo usa para construir un índice de búsqueda. Aparte de esto, el motor de búsqueda también utiliza el contenido extraído de muchas otras formas.

Análisis de documentos

  • En el campo de la inteligencia artificial, existen determinadas herramientas para analizar documentos de forma automática a nivel semántico y extraer de ellos todo tipo de datos.

  • En dichas aplicaciones, los documentos se clasifican según los términos destacados en el contenido extraído del documento.

  • Estas herramientas hacen uso de Tika para la extracción de contenido para analizar documentos que varían desde texto sin formato hasta documentos digitales.

Gestión de activos digitales

  • Algunas organizaciones administran sus activos digitales, como fotografías, libros electrónicos, dibujos, música y videos mediante una aplicación especial conocida como gestión de activos digitales (DAM).

  • Estas aplicaciones necesitan la ayuda de detectores de tipo de documento y extractor de metadatos para clasificar los distintos documentos.

Análisis de contenido

  • Los sitios web como Amazon recomiendan los contenidos recién lanzados de su sitio web a usuarios individuales de acuerdo con sus intereses. Para hacerlo, estos sitios web siguenmachine learning techniques, o tome la ayuda de sitios web de redes sociales como Facebook para extraer la información requerida, como los gustos e intereses de los usuarios. Esta información recopilada estará en forma de etiquetas html u otros formatos que requieran una mayor detección y extracción del tipo de contenido.

  • Para el análisis de contenido de un documento, contamos con tecnologías que implementan técnicas de aprendizaje automático como UIMA y Mahout. Estas tecnologías son útiles para agrupar y analizar los datos de los documentos.

  • Apache Mahoutes un marco que proporciona algoritmos ML en Apache Hadoop, una plataforma de computación en la nube. Mahout proporciona una arquitectura siguiendo ciertas técnicas de agrupamiento y filtrado. Siguiendo esta arquitectura, los programadores pueden escribir sus propios algoritmos ML para producir recomendaciones tomando varias combinaciones de texto y metadatos. Para proporcionar entradas a estos algoritmos, las versiones recientes de Mahout utilizan Tika para extraer texto y metadatos del contenido binario.

  • Apache UIMAanaliza y procesa varios lenguajes de programación y produce anotaciones UIMA. Internamente, utiliza Tika Annotator para extraer el texto y los metadatos del documento.

Historia

Año Desarrollo
2006 La idea de Tika se proyectó ante el Comité de Gestión del Proyecto Lucene.
2006 Se discutió el concepto de Tika y su utilidad en el proyecto Jackrabbit.
2007 Tika entró en la incubadora Apache.
2008 Se lanzaron las versiones 0.1 y 0.2 y Tika se graduó de la incubadora al subproyecto Lucene.
2009 Se lanzaron las versiones 0.3, 0.4 y 0.5.
2010 Se lanzaron las versiones 0.6 y 0.7 y Tika se graduó en el proyecto Apache de nivel superior.
2011 Tika 1.0 fue lanzado y el libro sobre Tika "Tika en acción" también fue lanzado en el mismo año.

Arquitectura de nivel de aplicación de Tika

Los programadores de aplicaciones pueden integrar fácilmente Tika en sus aplicaciones. Tika proporciona una interfaz de línea de comandos y una GUI para que sea fácil de usar.

En este capítulo, discutiremos los cuatro módulos importantes que constituyen la arquitectura Tika. La siguiente ilustración muestra la arquitectura de Tika junto con sus cuatro módulos:

  • Mecanismo de detección de idioma.
  • Mecanismo de detección MIME.
  • Interfaz del analizador.
  • Clase Tika Facade.

Mecanismo de detección del idioma

Siempre que se pasa un documento de texto a Tika, detectará el idioma en el que fue escrito. Acepta documentos sin anotación de idioma y agrega esa información en los metadatos del documento detectando el idioma.

Para apoyar la identificación del idioma, Tika tiene una clase llamada Language Identifier en el paquete org.apache.tika.languagey un repositorio de identificación de idiomas en el interior que contiene algoritmos para la detección de idiomas a partir de un texto determinado. Tika utiliza internamente el algoritmo N-gram para la detección de idiomas.

Mecanismo de detección MIME

Tika puede detectar el tipo de documento según los estándares MIME. La detección de tipo MIME predeterminada en Tika se realiza mediante org.apache.tika.mime.mimeTypes . Utiliza la interfaz org.apache.tika.detect.Detector para la mayor parte de la detección de tipos de contenido.

Internamente, Tika usa varias técnicas como archivos globales, sugerencias de tipo de contenido, bytes mágicos, codificaciones de caracteres y varias otras técnicas.

Interfaz del analizador

La interfaz del analizador de org.apache.tika.parser es la interfaz clave para analizar documentos en Tika. Esta interfaz extrae el texto y los metadatos de un documento y los resume para usuarios externos que estén dispuestos a escribir complementos de analizador.

Utilizando diferentes clases de analizadores concretos, específicas para tipos de documentos individuales, Tika admite muchos formatos de documentos. Estas clases específicas de formato brindan soporte para diferentes formatos de documentos, ya sea implementando directamente la lógica del analizador o usando bibliotecas externas del analizador.

Clase de fachada Tika

El uso de la clase de fachada Tika es la forma más sencilla y directa de llamar a Tika desde Java, y sigue el patrón de diseño de fachada. Puede encontrar la clase de fachada Tika en el paquete org.apache.tika de la API de Tika.

Al implementar casos de uso básicos, Tika actúa como un intermediario del paisaje. Abstrae la complejidad subyacente de la biblioteca Tika, como el mecanismo de detección MIME, la interfaz del analizador y el mecanismo de detección de idioma, y ​​proporciona a los usuarios una interfaz simple de usar.

Características de Tika

  • Unified parser Interface- Tika encapsula todas las bibliotecas de analizadores de terceros dentro de una única interfaz de analizador. Debido a esta característica, el usuario escapa de la carga de seleccionar la biblioteca del analizador adecuada y utilizarla de acuerdo con el tipo de archivo encontrado.

  • Low memory usage- Tika consume menos recursos de memoria, por lo que se puede integrar fácilmente con aplicaciones Java. También podemos usar Tika dentro de la aplicación que se ejecuta en plataformas con menos recursos como PDA móvil.

  • Fast processing - Se puede esperar una rápida detección y extracción de contenido de las aplicaciones.

  • Flexible metadata - Tika comprende todos los modelos de metadatos que se utilizan para describir archivos.

  • Parser integration - Tika puede usar varias bibliotecas de analizadores disponibles para cada tipo de documento en una sola aplicación.

  • MIME type detection - Tika puede detectar y extraer contenido de todos los tipos de medios incluidos en los estándares MIME.

  • Language detection - Tika incluye la función de identificación de idioma, por lo que se puede utilizar en documentos basados ​​en el tipo de idioma en sitios web multilingües.

Funcionalidades de Tika

Tika admite varias funcionalidades:

  • Detección de tipo de documento
  • Extracción de contenido
  • Extracción de metadatos
  • Detección de idioma

Detección de tipo de documento

Tika utiliza varias técnicas de detección y detecta el tipo de documento que se le entrega.

Extracción de contenido

Tika tiene una biblioteca de analizador que puede analizar el contenido de varios formatos de documentos y extraerlos. Después de detectar el tipo de documento, selecciona el analizador apropiado del repositorio de analizadores y pasa el documento. Las diferentes clases de Tika tienen métodos para analizar diferentes formatos de documentos.

Extracción de metadatos

Junto con el contenido, Tika extrae los metadatos del documento con el mismo procedimiento que en la extracción de contenido. Para algunos tipos de documentos, Tika tiene clases para extraer metadatos.

Detección de idioma

Internamente, Tika sigue algoritmos como n-grampara detectar el idioma del contenido en un documento dado. Tika depende de clases comoLanguageidentifier y Profiler para la identificación del idioma.

Este capítulo lo lleva a través del proceso de configuración de Apache Tika en Windows y Linux. Se necesita la administración de usuarios al instalar Apache Tika.

Requisitos del sistema

JDK Java SE 2 JDK 1.6 o superior
Memoria 1 GB de RAM (recomendado)
Espacio del disco Sin requisito mínimo
Versión del sistema operativo Windows XP o superior, Linux

Paso 1: verificar la instalación de Java

Para verificar la instalación de Java, abra la consola y ejecute lo siguiente java mando.

SO Tarea Mando
Ventanas Abrir consola de comandos \> java –version
Linux Terminal de comando abierto $ java –version

Si Java se ha instalado correctamente en su sistema, entonces debería obtener uno de los siguientes resultados, según la plataforma en la que esté trabajando.

SO Salida
Ventanas

Versión de Java "1.7.0_60"

Entorno de tiempo de ejecución Java (TM) SE (compilación 1.7.0_60-b19)

VM de servidor Java Hotspot (TM) de 64 bits (compilación 24.60-b09, modo mixto)

Lunix

versión de Java "1.7.0_25"

Entorno de tiempo de ejecución abierto de JDK (rhel-2.3.10.4.el6_4-x86_64)

Abra la máquina virtual del servidor JDK de 64 bits (compilación 23.7-b01, modo mixto)

  • Suponemos que los lectores de este tutorial tienen Java 1.7.0_60 instalado en su sistema antes de continuar con este tutorial.

  • En caso de que no tenga Java SDK, descargue su versión actual desde https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Paso 2: Configuración del entorno Java

Configure la variable de entorno JAVA_HOME para que apunte a la ubicación del directorio base donde está instalado Java en su máquina. Por ejemplo,

SO Salida
Ventanas Establezca la variable de entorno JAVA_HOME en C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux exportar JAVA_HOME = / usr / local / java-current

Agregue la ruta completa de la ubicación del compilador de Java a la ruta del sistema.

SO Salida
Ventanas Agregue la cadena; C: \ Archivos de programa \ Java \ jdk1.7.0_60 \ bin hasta el final de la variable del sistema PATH.
Linux export PATH = $ PATH: $ JAVA_HOME / bin /

Verifique el comando java-version desde el símbolo del sistema como se explicó anteriormente.

Paso 3: Configurar el entorno Apache Tika

Los programadores pueden integrar Apache Tika en su entorno utilizando

  • Línea de comando,
  • API de Tika,
  • Interfaz de línea de comandos (CLI) de Tika,
  • Interfaz gráfica de usuario (GUI) de Tika, o
  • el código fuente.

Para cualquiera de estos enfoques, en primer lugar, debe descargar el código fuente de Tika.

Encontrará el código fuente de Tika en https://Tika.apache.org/download.html, donde encontrará dos enlaces -

  • apache-tika-1.6-src.zip - Contiene el código fuente de Tika, y

  • Tika -app-1.6.jar - Es un archivo jar que contiene la aplicación Tika.

Descarga estos dos archivos. A continuación se muestra una instantánea del sitio web oficial de Tika.

Después de descargar los archivos, configure la ruta de clase para el archivo jar tika-app-1.6.jar. Agregue la ruta completa del archivo jar como se muestra en la tabla a continuación.

SO Salida
Ventanas Agregue la cadena "C: \ jars \ Tika-app-1.6.jar" a la variable de entorno de usuario CLASSPATH
Linux

Exportar CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache proporciona la aplicación Tika, una aplicación de interfaz gráfica de usuario (GUI) que utiliza Eclipse.

Tika-Maven Build usando Eclipse

  • Abra eclipse y cree un nuevo proyecto.

  • Si no tiene Maven en su Eclipse, configúrelo siguiendo los pasos dados.

    • Abra el enlace https://wiki.eclipse.org/M2E_updatesite_and_gittags . Allí encontrará las versiones del complemento m2e en formato tabular

  • Elija la última versión y guarde la ruta de la URL en la columna de URL p2.

  • Ahora vuelva a visitar eclipse, en la barra de menú, haga clic en Help, y elige Install New Software desde el menú desplegable

  • Haga clic en el Add, escriba el nombre que desee, ya que es opcional. Ahora pegue la URL guardada en elLocation campo.

  • Se agregará un nuevo complemento con el nombre que eligió en el paso anterior, marque la casilla de verificación al frente y haga clic en Next.

  • Continúe con la instalación. Una vez completado, reinicie Eclipse.

  • Ahora haga clic derecho en el proyecto, y en el configure opción, seleccione convert to maven project.

  • Aparece un nuevo asistente para crear un nuevo pom. Ingrese el ID de grupo como org.apache.tika, ingrese la última versión de Tika, seleccione elpackaging como jar y haga clic en Finish.

El proyecto Maven se instaló correctamente y su proyecto se convierte en Maven. Ahora tienes que configurar el archivo pom.xml.

Configurar el archivo XML

Obtenga la dependencia de Tika maven dehttps://mvnrepository.com/artifact/org.apache.tika

A continuación se muestra la dependencia completa de Maven de Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>

Los usuarios pueden incrustar Tika en sus aplicaciones utilizando la clase de fachada Tika. Tiene métodos para explorar todas las funcionalidades de Tika. Dado que es una clase de fachada, Tika abstrae la complejidad detrás de sus funciones. Además de esto, los usuarios también pueden utilizar las diversas clases de Tika en sus aplicaciones.

Clase Tika (fachada)

Esta es la clase más destacada de la biblioteca Tika y sigue el patrón de diseño de fachada. Por lo tanto, abstrae todas las implementaciones internas y proporciona métodos simples para acceder a las funcionalidades de Tika. La siguiente tabla enumera los constructores de esta clase junto con sus descripciones.

package - org.apache.tika

class - Tika

No Señor. Constructor y descripción
1

Tika ()

Utiliza la configuración predeterminada y construye la clase Tika.

2

Tika (Detector detector)

Crea una fachada Tika aceptando la instancia del detector como parámetro

3

Tika (Detector detector, Parser parser)

Crea una fachada Tika aceptando las instancias del detector y del analizador como parámetros.

4

Tika (Detector detector, Parser parser, Translator translator)

Crea una fachada Tika al aceptar el detector, el analizador y la instancia del traductor como parámetros.

5

Tika (TikaConfig config)

Crea una fachada Tika aceptando el objeto de la clase TikaConfig como parámetro.

Métodos y descripción

Los siguientes son los métodos importantes de la clase de fachada Tika:

No Señor. Métodos y descripción
1

analizar gramaticalmenteToString (File archivo)

Este método y todas sus variantes analiza el archivo pasado como parámetro y devuelve el contenido de texto extraído en formato String. De forma predeterminada, la longitud de este parámetro de cadena es limitada.

2

En t getMaxStringLength ()

Devuelve la longitud máxima de cadenas devueltas por los métodos parseToString.

3

vacío setMaxStringLength (int maxStringLength)

Establece la longitud máxima de cadenas devueltas por los métodos parseToString.

4

Lector parse (File archivo)

Este método y todas sus variantes analiza el archivo pasado como parámetro y devuelve el contenido de texto extraído en forma de objeto java.io.reader.

5

Cuerda detect (InputStream corriente, Metadata metadatos)

Este método y todas sus variantes aceptan un objeto InputStream y un objeto Metadata como parámetros, detecta el tipo del documento dado y devuelve el nombre del tipo de documento como objeto String. Este método abstrae los mecanismos de detección utilizados por Tika.

6

Cuerda translate (InputStream texto, String lengua de llegada)

Este método y todas sus variantes acepta el objeto InputStream y un String que representa el idioma en el que queremos que se traduzca nuestro texto, y traduce el texto dado al idioma deseado, intentando autodetectar el idioma fuente.

Interfaz del analizador

Esta es la interfaz que implementan todas las clases de analizadores del paquete Tika.

package - org.apache.tika.parser

Interface - Analizador

Métodos y descripción

El siguiente es el método importante de la interfaz de Tika Parser:

No Señor. Métodos y descripción
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Este método analiza el documento dado en una secuencia de eventos XHTML y SAX. Después del análisis, coloca el contenido del documento extraído en el objeto de la clase ContentHandler y los metadatos en el objeto de la clase Metadata.

Clase de metadatos

Esta clase implementa varias interfaces como CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable para soportar varios modelos de datos. Las siguientes tablas enumeran los constructores y métodos de esta clase junto con sus descripciones.

package - org.apache.tika.metadata

class - metadatos

No Señor. Constructor y descripción
1

Metadata()

Construye metadatos nuevos y vacíos.

No Señor. Métodos y descripción
1

add (Property property, String value)

Agrega un mapeo de propiedad / valor de metadatos a un documento dado. Usando esta función, podemos establecer el valor de una propiedad.

2

add (String name, String value)

Agrega un mapeo de propiedad / valor de metadatos a un documento dado. Con este método, podemos establecer un nuevo valor de nombre para los metadatos existentes de un documento.

3

String get (Property property)

Devuelve el valor (si lo hay) de la propiedad de metadatos proporcionada.

4

String get (String name)

Devuelve el valor (si lo hay) del nombre de metadatos proporcionado.

5

Date getDate (Property property)

Devuelve el valor de la propiedad de metadatos de fecha.

6

String[] getValues (Property property)

Devuelve todos los valores de una propiedad de metadatos.

7

String[] getValues (String name)

Devuelve todos los valores de un nombre de metadatos determinado.

8

String[] names()

Devuelve todos los nombres de los elementos de metadatos en un objeto de metadatos.

9

set (Property property, Date date)

Establece el valor de fecha de la propiedad de metadatos dada

10

set(Property property, String[] values)

Establece varios valores en una propiedad de metadatos.

Clase de identificador de idioma

Esta clase identifica el idioma del contenido dado. Las siguientes tablas enumeran los constructores de esta clase junto con sus descripciones.

package - org.apache.tika.language

class - Identificador de idioma

No Señor. Constructor y descripción
1

LanguageIdentifier (LanguageProfile profile)

Crea una instancia del identificador de idioma. Aquí tienes que pasar un objeto LanguageProfile como parámetro.

2

LanguageIdentifier (String content)

Este constructor puede crear una instancia de un identificador de idioma pasando una cadena de contenido de texto.

No Señor. Métodos y descripción
1

String getLanguage ()

Devuelve el idioma dado al objeto LanguageIdentifier actual.

Formatos de archivo admitidos por Tika

La siguiente tabla muestra los formatos de archivo que admite Tika.

Formato de archivo Biblioteca de paquetes Clase en Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html y usa la biblioteca de grupos de etiquetas HtmlParser
Documento compuesto de MS-Office Ole2 hasta 2007 ooxml 2007 en adelante

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml y usa la biblioteca Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

Formato OpenDocument openoffice org.apache.tika.parser.odf OpenOfficeParser
formato de documento portátil (PDF) org.apache.tika.parser.pdf y este paquete usa la biblioteca Apache PdfBox PDFParser
Formato de publicación electrónica (libros digitales) org.apache.tika.parser.epub EpubParser
Formato de texto enriquecido org.apache.tika.parser.rtf RTFParser
Formatos de compresión y empaque org.apache.tika.parser.pkg y este paquete usa la biblioteca de compresión común PackageParser y CompressorParser y sus subclases
Formato de texto org.apache.tika.parser.txt TXTParser
Formatos de distribución y alimentación org.apache.tika.parser.feed FeedParser
Formatos de audio org.apache.tika.parser.audio y org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- para mp3parser
Analizadores de imágenes org.apache.tika.parser.jpeg JpegParser-para imágenes jpeg
Videoformatos org.apache.tika.parser.mp4 y org.apache.tika.parser.video este analizador utiliza internamente un algoritmo simple para analizar formatos de video flash Mp4parser FlvParser
archivos de clase java y archivos jar org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (mensajes de correo electrónico) org.apache.tika.parser.mbox MobXParser
Formatos cad org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programas y bibliotecas ejecutables org.apache.tika.parser.executable ExecutableParser

Estándares MIME

Los estándares de Extensiones de correo de Internet multipropósito (MIME) son los mejores estándares disponibles para identificar tipos de documentos. El conocimiento de estos estándares ayuda al navegador durante las interacciones internas.

Siempre que el navegador encuentra un archivo multimedia, elige un software compatible disponible con él para mostrar su contenido. En caso de que no tenga una aplicación adecuada para ejecutar un archivo multimedia en particular, recomienda al usuario que obtenga el software de complemento adecuado para él.

Detección de tipo en Tika

Tika admite todos los tipos de documentos multimedia de Internet proporcionados en MIME. Siempre que un archivo pasa por Tika, detecta el archivo y su tipo de documento. Para detectar tipos de medios, Tika utiliza internamente los siguientes mecanismos.

Extensiones de archivo

La comprobación de las extensiones de archivo es el método más sencillo y más utilizado para detectar el formato de un archivo. Muchas aplicaciones y sistemas operativos brindan soporte para estas extensiones. A continuación se muestra la extensión de algunos tipos de archivos conocidos.

Nombre del archivo Extensión
imagen .jpg
audio .mp3
archivo de almacenamiento java .tarro
archivo de clase java .clase

Sugerencias de tipo de contenido

Siempre que recupere un archivo de una base de datos o lo adjunte a otro documento, puede perder el nombre o la extensión del archivo. En tales casos, los metadatos proporcionados con el archivo se utilizan para detectar la extensión del archivo.

Byte mágico

Al observar los bytes sin procesar de un archivo, puede encontrar algunos patrones de caracteres únicos para cada archivo. Algunos archivos tienen prefijos de bytes especiales llamadosmagic bytes que están especialmente hechos e incluidos en un archivo con el fin de identificar el tipo de archivo

Por ejemplo, puede encontrar CA FE BA BE (formato hexadecimal) en un archivo java y% PDF (formato ASCII) en un archivo pdf. Tika usa esta información para identificar el tipo de medio de un archivo.

Codificaciones de caracteres

Los archivos con texto sin formato se codifican utilizando diferentes tipos de codificación de caracteres. El principal desafío aquí es identificar el tipo de codificación de caracteres utilizada en los archivos. Tika sigue técnicas de codificación de caracteres comoBom markers y Byte Frequencies para identificar el sistema de codificación utilizado por el contenido de texto sin formato.

Caracteres raíz XML

Para detectar documentos XML, Tika analiza los documentos xml y extrae la información, como elementos raíz, espacios de nombres y esquemas referenciados, desde donde se puede encontrar el tipo de medio real de los archivos.

Detección de tipos mediante la clase de fachada

los detect()El método de la clase de fachada se utiliza para detectar el tipo de documento. Este método acepta un archivo como entrada. A continuación se muestra un programa de ejemplo para la detección del tipo de documento con la clase de fachada Tika.

import java.io.File;

import org.apache.tika.Tika;

public class Typedetection {

   public static void main(String[] args) throws Exception {

      //assume example.mp3 is in your current directory
      File file = new File("example.mp3");//
      
      //Instantiating tika facade class 
      Tika tika = new Tika();
      
      //detecting the file type using detect method
      String filetype = tika.detect(file);
      System.out.println(filetype);
   }
}

Guarde el código anterior como TypeDetection.java y ejecútelo desde el símbolo del sistema usando los siguientes comandos:

javac TypeDetection.java
java TypeDetection 

audio/mpeg

Tika utiliza varias bibliotecas de analizadores para extraer contenido de analizadores determinados. Elige el analizador adecuado para extraer el tipo de documento dado.

Para analizar documentos, generalmente se usa el método parseToString () de la clase de fachada Tika. A continuación se muestran los pasos involucrados en el proceso de análisis y estos son abstraídos por el método Tika ParsertoString ().

Resumen del proceso de análisis sintáctico -

  • Inicialmente, cuando pasamos un documento a Tika, utiliza un mecanismo de detección de tipo adecuado disponible con él y detecta el tipo de documento.

  • Una vez que se conoce el tipo de documento, elige un analizador adecuado de su repositorio de analizadores. El repositorio del analizador contiene clases que hacen uso de bibliotecas externas.

  • Luego, se pasa el documento para elegir el analizador que analizará el contenido, extraerá el texto y también arrojará excepciones para formatos ilegibles.

Extracción de contenido usando Tika

A continuación se muestra el programa para extraer texto de un archivo utilizando la clase de fachada Tika:

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import org.xml.sax.SAXException;

public class TikaExtraction {
	
   public static void main(final String[] args) throws IOException, TikaException {

      //Assume sample.txt is in your current directory		        
      File file = new File("sample.txt");
      
      //Instantiating Tika facade class
      Tika tika = new Tika();
      String filecontent = tika.parseToString(file);
      System.out.println("Extracted Content: " + filecontent);
   }		 
}

Guarde el código anterior como TikaExtraction.java y ejecútelo desde el símbolo del sistema -

javac TikaExtraction.java 
java TikaExtraction

A continuación se muestra el contenido de sample.txt.

Hi students welcome to tutorialspoint

Te da el siguiente resultado:

Extracted Content: Hi students welcome to tutorialspoint

Extracción de contenido mediante la interfaz del analizador

El paquete analizador de Tika proporciona varias interfaces y clases mediante las cuales podemos analizar un documento de texto. A continuación se muestra el diagrama de bloques delorg.apache.tika.parser paquete.

Hay varias clases de analizador disponibles, por ejemplo, analizador de pdf, Mp3Passer, OfficeParser, etc., para analizar los documentos respectivos individualmente. Todas estas clases implementan la interfaz del analizador.

CompuestoParser

El diagrama dado muestra las clases de analizador de propósito general de Tika: CompositeParser y AutoDetectParser. Dado que la clase CompositeParser sigue un patrón de diseño compuesto, puede utilizar un grupo de instancias de analizador como un único analizador. La clase CompositeParser también permite el acceso a todas las clases que implementan la interfaz del analizador.

AutoDetectParser

Esta es una subclase de CompositeParser y proporciona detección automática de tipos. Usando esta funcionalidad, AutoDetectParser envía automáticamente los documentos entrantes a las clases de analizador apropiadas usando la metodología compuesta.

método parse ()

Junto con parseToString (), también puede utilizar el método parse () de la interfaz del analizador. El prototipo de este método se muestra a continuación.

parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

La siguiente tabla enumera los cuatro objetos que acepta como parámetros.

No Señor. Descripción del objeto
1

InputStream stream

Cualquier objeto Inputstream que contenga el contenido del archivo

2

ContentHandler handler

Tika pasa el documento como contenido XHTML a este controlador, luego el documento se procesa usando la API SAX. Proporciona un posprocesamiento eficiente del contenido de un documento.

3

Metadata metadata

El objeto de metadatos se utiliza como fuente y destino de los metadatos del documento.

4

ParseContext context

Este objeto se utiliza en los casos en que la aplicación cliente desea personalizar el proceso de análisis.

Ejemplo

A continuación se muestra un ejemplo que muestra cómo se usa el método parse ().

Step 1 -

Para usar el método parse () de la interfaz del analizador, cree una instancia de cualquiera de las clases que proporcionan la implementación para esta interfaz.

Hay clases de analizadores individuales como PDFParser, OfficeParser, XMLParser, etc. Puede utilizar cualquiera de estos analizadores de documentos individuales. Alternativamente, puede usar CompositeParser o AutoDetectParser que usa todas las clases de analizador internamente y extrae el contenido de un documento usando un analizador adecuado.

Parser parser = new AutoDetectParser();
   (or)
Parser parser = new CompositeParser();  
   (or)        
object of any individual parsers given in Tika Library

Step 2 -

Cree un objeto de clase de controlador. A continuación se muestran los tres controladores de contenido:

No Señor. Clase y descripción
1

BodyContentHandler

Esta clase elige la parte del cuerpo de la salida XHTML y escribe ese contenido en el escritor de salida o en el flujo de salida. Luego, redirige el contenido XHTML a otra instancia de controlador de contenido.

2

LinkContentHandler

Esta clase detecta y elige todas las etiquetas H-Ref del documento XHTML y las reenvía para el uso de herramientas como rastreadores web.

3

TeeContentHandler

Esta clase ayuda a usar múltiples herramientas simultáneamente.

Dado que nuestro objetivo es extraer el contenido de texto de un documento, cree una instancia de BodyContentHandler como se muestra a continuación:

BodyContentHandler handler = new BodyContentHandler( );

Step 3 -

Cree el objeto de metadatos como se muestra a continuación:

Metadata metadata = new Metadata();

Step 4 -

Cree cualquiera de los objetos de flujo de entrada y pase el archivo que debe extraerse.

FileInputstream

Cree una instancia de un objeto de archivo pasando la ruta del archivo como parámetro y pase este objeto al constructor de la clase FileInputStream.

Note - La ruta pasada al objeto de archivo no debe contener espacios.

El problema con estas clases de flujo de entrada es que no admiten lecturas de acceso aleatorio, que se requieren para procesar algunos formatos de archivo de manera eficiente. Para resolver este problema, Tika proporciona TikaInputStream.

File  file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
   (or)
InputStream stream = TikaInputStream.get(new File(filename));

Step 5 -

Cree un objeto de contexto de análisis como se muestra a continuación:

ParseContext context =new ParseContext();

Step 6 -

Cree una instancia del objeto del analizador, invoque el método de análisis y pase todos los objetos necesarios, como se muestra en el siguiente prototipo:

parser.parse(inputstream, handler, metadata, context);

A continuación se muestra el programa para la extracción de contenido utilizando la interfaz del analizador:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class ParserExtraction {
	
   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //Assume sample.txt is in your current directory
      File file = new File("sample.txt");
      
      //parse method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //parsing the file
      parser.parse(inputstream, handler, metadata, context);
      System.out.println("File content : " + Handler.toString());
   }
}

Guarde el código anterior como ParserExtraction.java y ejecútelo desde el símbolo del sistema -

javac  ParserExtraction.java 
java  ParserExtraction

A continuación se muestra el contenido de sample.txt

Hi students welcome to tutorialspoint

Si ejecuta el programa anterior, le dará el siguiente resultado:

File content : Hi students welcome to tutorialspoint

Además del contenido, Tika también extrae los metadatos de un archivo. Los metadatos no son más que la información adicional proporcionada con un archivo. Si consideramos un archivo de audio, el nombre del artista, el nombre del álbum y el título se incluyen en los metadatos.

Estándares XMP

La Plataforma de metadatos extensible (XMP) es un estándar para procesar y almacenar información relacionada con el contenido de un archivo. Fue creado por Adobe Systems Inc . XMP proporciona estándares para definir, crear y procesar metadatos . Puede incrustar este estándar en varios formatos de archivo como PDF , JPEG , JPEG , GIF , jpg , HTML , etc.

Clase de propiedad

Tika usa la clase Property para seguir la definición de propiedad XMP. Proporciona las enumeraciones PropertyType y ValueType para capturar el nombre y el valor de un metadato.

Clase de metadatos

Esta clase implementa varias interfaces como ClimateForcast , CativeCommons, Geographic , TIFF, etc. para proporcionar soporte para varios modelos de metadatos. Además, esta clase proporciona varios métodos para extraer el contenido de un archivo.

Nombres de metadatos

Podemos extraer la lista de todos los nombres de metadatos de un archivo de su objeto de metadatos usando los nombres de método () . Devuelve todos los nombres como una matriz de cadenas. Usando el nombre de los metadatos, podemos obtener el valor usando elget()método. Toma un nombre de metadatos y devuelve un valor asociado a él.

String[] metadaNames = metadata.names();

String value = metadata.get(name);

Extraer metadatos mediante el método Parse

Siempre que analizamos un archivo usando parse (), pasamos un objeto de metadatos vacío como uno de los parámetros. Este método extrae los metadatos del archivo dado (si ese archivo contiene alguno) y los coloca en el objeto de metadatos. Por lo tanto, después de analizar el archivo usando parse (), podemos extraer los metadatos de ese objeto.

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();   //empty metadata object 
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);

// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();

A continuación se muestra el programa completo para extraer metadatos de un archivo de texto.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class GetMetadata {
	
   public static void main(final String[] args) throws IOException, TikaException {
	
      //Assume that boy.jpg is in your current directory
      File file = new File("boy.jpg");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      parser.parse(inputstream, handler, metadata, context);
      System.out.println(handler.toString());

      //getting the list of all meta data elements 
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como GetMetadata.java y ejecútelo desde el símbolo del sistema usando los siguientes comandos:

javac  GetMetadata .java
java  GetMetadata

A continuación se muestra la instantánea de boy.jpg

Si ejecuta el programa anterior, le dará el siguiente resultado:

X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
   53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots

También podemos obtener nuestros valores de metadatos deseados.

Agregar nuevos valores de metadatos

Podemos agregar nuevos valores de metadatos usando el método add () de la clase de metadatos. A continuación se muestra la sintaxis de este método. Aquí estamos agregando el nombre del autor.

metadata.add(“author”,”Tutorials point”);

La clase de metadatos tiene propiedades predefinidas, incluidas las propiedades heredadas de clases como ClimateForcast , CativeCommons, Geographic , etc., para admitir varios modelos de datos. A continuación se muestra el uso del tipo de datos SOFTWARE heredado de la interfaz TIFF implementada por Tika para seguir los estándares de metadatos XMP para formatos de imagen TIFF.

metadata.add(Metadata.SOFTWARE,"ms paint");

A continuación se muestra el programa completo que demuestra cómo agregar valores de metadatos a un archivo determinado. Aquí la lista de los elementos de metadatos se muestra en la salida para que pueda observar el cambio en la lista después de agregar nuevos valores.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class AddMetadata {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //create a file object and assume sample.txt is in your current directory
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();

      //parsing the document
      parser.parse(inputstream, handler, metadata, context);

      //list of meta data elements before adding new elements
      System.out.println( " metadata elements :"  +Arrays.toString(metadata.names()));

      //adding new meta data name value pair
      metadata.add("Author","Tutorials Point");
      System.out.println(" metadata name value pair is successfully added");
      
      //printing all the meta data elements after adding new elements
      System.out.println("Here is the list of all the metadata 
         elements after adding new elements");
      System.out.println( Arrays.toString(metadata.names()));
   }
}

Guarde el código anterior como clase AddMetadata.java y ejecútelo desde el símbolo del sistema -

javac  AddMetadata .java 
java  AddMetadata

A continuación se muestra el contenido de Example.txt

Hi students welcome to tutorialspoint

Si ejecuta el programa anterior, le dará el siguiente resultado:

metadata elements of the given file :
[Content-Encoding, Content-Type] 
enter the number of metadata name value pairs to be added 1
enter metadata1name: 
Author enter metadata1value: 
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements  after adding new elements
[Content-Encoding, Author, Content-Type]

Establecer valores para elementos de metadatos existentes

Puede establecer valores para los elementos de metadatos existentes utilizando el método set (). La sintaxis para configurar la propiedad de la fecha usando el método set () es la siguiente:

metadata.set(Metadata.DATE, new Date());

También puede establecer varios valores para las propiedades utilizando el método set (). La sintaxis para establecer varios valores en la propiedad Author utilizando el método set () es la siguiente:

metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");

A continuación se muestra el programa completo que demuestra el método set ().

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import java.util.Date;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class SetMetadata {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {
   
      //Create a file object and assume example.txt is in your current directory
      File file = new File("example.txt");
      
      //parameters of parse() method
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //Parsing the given file
      parser.parse(inputstream, handler, metadata, context);
     
      //list of meta data elements elements
      System.out.println( " metadata elements and values of the given file :");
      String[] metadataNamesb4 = metadata.names();
      
      for(String name : metadataNamesb4) {
    	  System.out.println(name + ": " + metadata.get(name));
      }
      
      //setting date meta data 
      metadata.set(Metadata.DATE, new Date());
      
      //setting multiple values to author property
      metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
      
      //printing all the meta data elements with new elements
      System.out.println("List of all the metadata elements  after adding new elements ");
      String[] metadataNamesafter = metadata.names();
      
      for(String name : metadataNamesafter) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como SetMetadata.java y ejecútelo desde el símbolo del sistema -

javac  SetMetadata.java 
java  SetMetadata

A continuación se muestra el contenido de example.txt.

Hi students welcome to tutorialspoint

Si ejecuta el programa anterior, le dará el siguiente resultado. En la salida, puede observar los elementos de metadatos recién agregados.

metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements  after adding new elements 
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin 
Content-Type: text/plain; charset = ISO-8859-1

Necesidad de detección de idioma

Para la clasificación de documentos según el idioma en el que están escritos en un sitio web multilingüe, se necesita una herramienta de detección de idioma. Esta herramienta debe aceptar documentos sin anotaciones de idioma (metadatos) y agregar esa información en los metadatos del documento detectando el idioma.

Algoritmos para perfiles de corpus

¿Qué es Corpus?

Para detectar el idioma de un documento, se construye un perfil de idioma y se compara con el perfil de los idiomas conocidos. El conjunto de texto de estos idiomas conocidos se conoce comocorpus.

Un corpus es una colección de textos de una lengua escrita que explica cómo se usa la lengua en situaciones reales.

El corpus se desarrolla a partir de libros, transcripciones y otros recursos de datos como Internet. La precisión del corpus depende del algoritmo de creación de perfiles que usemos para enmarcar el corpus.

¿Qué son los algoritmos de creación de perfiles?

La forma habitual de detectar idiomas es mediante diccionarios. Las palabras utilizadas en un texto determinado se compararán con las que se encuentran en los diccionarios.

Una lista de palabras comunes utilizadas en un idioma será el corpus más simple y efectivo para detectar un idioma en particular, por ejemplo, artículos. a, an, the en inglés.

Usar conjuntos de palabras como corpus

Usando conjuntos de palabras, se enmarca un algoritmo simple para encontrar la distancia entre dos cuerpos, que será igual a la suma de las diferencias entre las frecuencias de las palabras coincidentes.

Tales algoritmos adolecen de los siguientes problemas:

  • Dado que la frecuencia de coincidencia de palabras es muy inferior, el algoritmo no puede funcionar de manera eficiente con textos pequeños que tienen pocas oraciones. Necesita mucho texto para una coincidencia precisa.

  • No puede detectar límites de palabras para idiomas que tienen oraciones compuestas y aquellos que no tienen separadores de palabras como espacios o signos de puntuación.

Debido a estas dificultades para utilizar conjuntos de palabras como corpus, se consideran caracteres individuales o grupos de caracteres.

Usar juegos de caracteres como corpus

Dado que los caracteres que se utilizan comúnmente en un idioma son finitos en número, es fácil aplicar un algoritmo basado en frecuencias de palabras en lugar de caracteres. Este algoritmo funciona incluso mejor en el caso de ciertos juegos de caracteres utilizados en uno o muy pocos idiomas.

Este algoritmo adolece de los siguientes inconvenientes:

  • Es difícil diferenciar dos idiomas que tienen frecuencias de caracteres similares.

  • No existe una herramienta o algoritmo específico para identificar específicamente un idioma con la ayuda (como corpus) del conjunto de caracteres utilizado por varios idiomas.

Algoritmo de N-gram

Los inconvenientes mencionados anteriormente dieron lugar a un nuevo enfoque de utilizar secuencias de caracteres de una longitud determinada para el perfil del corpus. Dicha secuencia de caracteres se denomina N-gramas en general, donde N representa la longitud de la secuencia de caracteres.

  • El algoritmo N-gram es un método eficaz para la detección de idiomas, especialmente en el caso de idiomas europeos como el inglés.

  • Este algoritmo funciona bien con textos cortos.

  • Aunque existen algoritmos avanzados de creación de perfiles de idiomas para detectar varios idiomas en un documento multilingüe que tienen características más atractivas, Tika utiliza el algoritmo de 3 gramos, ya que es adecuado en la mayoría de situaciones prácticas.

Detección de idioma en Tika

Entre los 184 idiomas estándar estandarizados por ISO 639-1, Tika puede detectar 18 idiomas. La detección de idioma en Tika se realiza mediante elgetLanguage() método del LanguageIdentifierclase. Este método devuelve el nombre de código del idioma en formato String. A continuación se muestra la lista de los 18 pares de código de idioma detectados por Tika:

da — danés de — alemán et — estonio el — griego
en — inglés es — español fi — finlandés fr — francés
hu — húngaro es — islandés it — italiano nl — holandés
no — noruego pl — polaco pt: portugués ru — ruso
sv — sueco th — tailandés

Mientras instancia el LanguageIdentifier clase, debe pasar el formato de cadena del contenido que se extraerá, o un LanguageProfile objeto de clase.

LanguageIdentifier object = new LanguageIdentifier(“this is english”);

A continuación se muestra el programa de ejemplo para la detección de idiomas en Tika.

import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;

import org.xml.sax.SAXException;

public class LanguageDetection {

   public static void main(String args[])throws IOException, SAXException, TikaException {

      LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
      String language = identifier.getLanguage();
      System.out.println("Language of the given content is : " + language);
   }
}

Guarde el código anterior como LanguageDetection.java y ejecútelo desde el símbolo del sistema usando los siguientes comandos:

javac  LanguageDetection.java 
java  LanguageDetection

Si ejecuta el programa anterior, da la siguiente salida:

Language of the given content is : en

Detección de idioma de un documento

Para detectar el idioma de un documento dado, debe analizarlo usando el método parse (). El método parse () analiza el contenido y lo almacena en el objeto controlador, que se le pasó como uno de los argumentos. Pase el formato de cadena del objeto controlador al constructor delLanguageIdentifier clase como se muestra a continuación -

parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());

A continuación se muestra el programa completo que demuestra cómo detectar el idioma de un documento determinado:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;

import org.xml.sax.SAXException;

public class DocumentLanguageDetection {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //Instantiating a file object
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream content = new FileInputStream(file);

      //Parsing the given document
      parser.parse(content, handler, metadata, new ParseContext());

      LanguageIdentifier object = new LanguageIdentifier(handler.toString());
      System.out.println("Language name :" + object.getLanguage());
   }
}

Guarde el código anterior como SetMetadata.java y ejecútelo desde el símbolo del sistema -

javac  SetMetadata.java 
java  SetMetadata

A continuación se muestra el contenido de Example.txt.

Hi students welcome to tutorialspoint

Si ejecuta el programa anterior, le dará el siguiente resultado:

Language name :en

Junto con el tarro de Tika, Tika proporciona una aplicación de interfaz gráfica de usuario (GUI) y una aplicación de interfaz de línea de comandos (CLI). También puede ejecutar una aplicación Tika desde el símbolo del sistema como otras aplicaciones Java.

Interfaz gráfica de usuario (GUI)

  • Tika proporciona un archivo jar junto con su código fuente en el siguiente enlace https://tika.apache.org/download.html.

  • Descargue ambos archivos, establezca la ruta de clase para el archivo jar.

  • Extraiga la carpeta zip del código fuente, abra la carpeta tika-app.

  • En la carpeta extraída en "tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui", verá dos archivos de clase: ParsingTransferHandler.java y TikaGUI.java.

  • Compile ambos archivos de clase y ejecute el archivo de clase TikaGUI.java, se abre la siguiente ventana.

Veamos ahora cómo hacer uso de la GUI de Tika.

En la GUI, haga clic en abrir, busque y seleccione un archivo que desee extraer o arrástrelo al espacio en blanco de la ventana.

Tika extrae el contenido de los archivos y lo muestra en cinco formatos diferentes, a saber. metadatos, texto formateado, texto sin formato, contenido principal y texto estructurado. Puede elegir cualquiera de los formatos que desee.

De la misma manera, también encontrará la clase CLI en la carpeta "tika-1.6 \ tikaapp \ src \ main \ java \ org \ apache \ tika \ cli".

La siguiente ilustración muestra lo que puede hacer Tika. Cuando colocamos la imagen en la GUI, Tika extrae y muestra sus metadatos.

A continuación se muestra el programa para extraer contenido y metadatos de un PDF.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class PdfParse {

   public static void main(final String[] args) throws IOException,TikaException {

      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
      ParseContext pcontext = new ParseContext();
      
      //parsing the document using PDF parser
      PDFParser pdfparser = new PDFParser(); 
      pdfparser.parse(inputstream, handler, metadata,pcontext);
      
      //getting the content of the document
      System.out.println("Contents of the PDF :" + handler.toString());
      
      //getting metadata of the document
      System.out.println("Metadata of the PDF:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name+ " : " + metadata.get(name));
      }
   }
}

Guarde el código anterior como PdfParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac PdfParse.java
java PdfParse

A continuación, se muestra la instantánea de example.pdf

El PDF que estamos pasando tiene las siguientes propiedades:

Después de compilar el programa, obtendrá el resultado que se muestra a continuación.

Output -

Contents of the PDF:

Apache Tika is a framework for content type detection and content extraction 
which was designed by Apache software foundation. It detects and extracts metadata 
and structured text content from different types of documents such as spreadsheets, 
text documents, images or PDFs including audio or video input formats to certain extent.

Metadata of the PDF:

dcterms:modified :     2014-09-28T12:31:16Z
meta:creation-date :     2014-09-28T12:31:16Z
meta:save-date :     2014-09-28T12:31:16Z
dc:creator :     Krishna Kasyap
pdf:PDFVersion :     1.5
Last-Modified :     2014-09-28T12:31:16Z
Author :     Krishna Kasyap
dcterms:created :     2014-09-28T12:31:16Z
date :     2014-09-28T12:31:16Z
modified :     2014-09-28T12:31:16Z
creator :     Krishna Kasyap
xmpTPg:NPages :     1
Creation-Date :     2014-09-28T12:31:16Z
pdf:encrypted :     false
meta:author :     Krishna Kasyap
created :     Sun Sep 28 05:31:16 PDT 2014
dc:format :     application/pdf; version = 1.5
producer :     Microsoft® Word 2013
Content-Type :     application/pdf
xmp:CreatorTool :     Microsoft® Word 2013
Last-Save-Date :     2014-09-28T12:31:16Z

A continuación se muestra el programa para extraer contenido y metadatos de Open Office Document Format (ODF).

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.odf.OpenDocumentParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class OpenDocumentParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_open_document_presentation.odp"));
      ParseContext pcontext = new ParseContext();
      
      //Open Document Parser
      OpenDocumentParser openofficeparser = new OpenDocumentParser (); 
      openofficeparser.parse(inputstream, handler, metadata,pcontext); 
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name)); 
      }
   }
}

Guarde el código anterior como OpenDocumentParse.javay compílelo en el símbolo del sistema mediante los siguientes comandos:

javac OpenDocumentParse.java
java OpenDocumentParse

A continuación se muestra una instantánea del archivo example_open_document_presentation.odp.

Este documento tiene las siguientes propiedades:

Después de compilar el programa, obtendrá el siguiente resultado.

Output -

Contents of the document:

Apache Tika
Apache Tika is a framework for content type detection and content extraction which was designed 
by Apache software foundation. It detects and extracts metadata and structured text content from 
different types of documents such as spreadsheets, text documents, images or PDFs including audio 
or video input formats to certain extent. 

Metadata of the document:

editing-cycles:   4
meta:creation-date:   2009-04-16T11:32:32.86
dcterms:modified:   2014-09-28T07:46:13.03
meta:save-date:   2014-09-28T07:46:13.03
Last-Modified:   2014-09-28T07:46:13.03
dcterms:created:   2009-04-16T11:32:32.86
date:   2014-09-28T07:46:13.03
modified:   2014-09-28T07:46:13.03
nbObject:   36
Edit-Time:   PT32M6S
Creation-Date:   2009-04-16T11:32:32.86
Object-Count:   36
meta:object-count:   36
generator:   OpenOffice/4.1.0$Win32 OpenOffice.org_project/410m18$Build-9764
Content-Type:   application/vnd.oasis.opendocument.presentation
Last-Save-Date:   2014-09-28T07:46:13.03

A continuación se muestra el programa para extraer contenido y metadatos de un documento de Microsoft Office.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class MSExcelParse {

   public static void main(final String[] args) throws IOException, TikaException {
      
      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_msExcel.xlsx"));
      ParseContext pcontext = new ParseContext();
      
      //OOXml parser
      OOXMLParser  msofficeparser = new OOXMLParser (); 
      msofficeparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como MSExelParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac MSExcelParse.java
java MSExcelParse

Aquí estamos pasando el siguiente archivo de ejemplo de Excel.

El archivo de Excel dado tiene las siguientes propiedades:

Después de ejecutar el programa anterior, obtendrá el siguiente resultado.

Output -

Contents of the document:

Sheet1
Name	Age	Designation		Salary
Ramu	50	Manager			50,000
Raheem	40	Assistant manager	40,000
Robert	30	Superviser		30,000
sita	25	Clerk			25,000
sameer	25	Section in-charge	20,000

Metadata of the document:

meta:creation-date:    2006-09-16T00:00:00Z
dcterms:modified:    2014-09-28T15:18:41Z
meta:save-date:    2014-09-28T15:18:41Z
Application-Name:    Microsoft Excel
extended-properties:Company:    
dcterms:created:    2006-09-16T00:00:00Z
Last-Modified:    2014-09-28T15:18:41Z
Application-Version:    15.0300
date:    2014-09-28T15:18:41Z
publisher:    
modified:    2014-09-28T15:18:41Z
Creation-Date:    2006-09-16T00:00:00Z
extended-properties:AppVersion:    15.0300
protected:    false
dc:publisher:    
extended-properties:Application:    Microsoft Excel
Content-Type:    application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Last-Save-Date:    2014-09-28T15:18:41Z

A continuación se muestra el programa para extraer contenido y metadatos de un documento de texto:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;

import org.xml.sax.SAXException;

public class TextParser {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.txt"));
      ParseContext pcontext=new ParseContext();
      
      //Text document parser
      TXTParser  TexTParser = new TXTParser();
      TexTParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + " : " + metadata.get(name));
      }
   }
}

Guarde el código anterior como TextParser.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac TextParser.java
java TextParser

A continuación se muestra la instantánea del archivo sample.txt:

El documento de texto tiene las siguientes propiedades:

Si ejecuta el programa anterior, le dará el siguiente resultado.

Output -

Contents of the document:

At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning 
purpose in the domains of Academics, Information Technology, Management and Computer 
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing 
director of Tutorials Point (I) Pvt. Ltd. He came up with the website tutorialspoint.com 
in year 2006 with the help of handpicked freelancers, with an array of tutorials for 
computer programming languages.

Metadata of the document:

Content-Encoding:   windows-1252
Content-Type:   text/plain; charset = windows-1252

A continuación se muestra el programa para extraer contenido y metadatos de un documento HTML.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.html"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser 
      HtmlParser htmlparser = new HtmlParser();
      htmlparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));  
      }
   }
}

Guarde el código anterior como HtmlParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac HtmlParse.java
java HtmlParse

A continuación se muestra la instantánea del archivo example.txt.

El documento HTML tiene las siguientes propiedades:

Si ejecuta el programa anterior, le dará el siguiente resultado.

Output -

Contents of the document:

	Name	                     Salary	    age
	Ramesh Raman	             50000	    20
	Shabbir Hussein	             70000          25
	Umesh Raman	             50000	    30
	Somesh	                     50000	    35

Metadata of the document:

title:   HTML Table Header
Content-Encoding:   windows-1252
Content-Type:   text/html; charset = windows-1252
dc:title:   HTML Table Header

A continuación se muestra el programa para extraer contenido y metadatos de un documento XML:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class XmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("pom.xml"));
      ParseContext pcontext = new ParseContext();
      
      //Xml parser
      XMLParser xmlparser = new XMLParser(); 
      xmlparser.parse(inputstream, handler, metadata, pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como XmlParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac XmlParse.java
java XmlParse

A continuación se muestra la instantánea del archivo example.xml

Este documento tiene las siguientes propiedades:

Si ejecuta el programa anterior, le dará el siguiente resultado:

Output -

Contents of the document:
  
4.0.0
org.apache.tika
tika
1.6
org.apache.tika
tika-core
1.6
org.apache.tika
tika-parsers
1.6
src
maven-compiler-plugin
3.1
1.7
1.7

Metadata of the document:

Content-Type:   application/xml

A continuación se muestra el programa para extraer contenido y metadatos de un archivo .class.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.asm.ClassParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JavaClassParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.class"));
      ParseContext pcontext = new ParseContext();

      //Html parser
      ClassParser  ClassParser = new  ClassParser();
      ClassParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name));  
      }
   }
}

Guarde el código anterior como JavaClassParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac JavaClassParse.java
java JavaClassParse

A continuación se muestra la instantánea de Example.java que generará Example.class después de la compilación.

Example.class archivo tiene las siguientes propiedades:

Después de ejecutar el programa anterior, obtendrá el siguiente resultado.

Output -

Contents of the document:

package tutorialspoint.tika.examples;
public synchronized class Example {
   public void Example();
   public static void main(String[]);
}

Metadata of the document:

title: Example
resourceName: Example.class
dc:title: Example

A continuación se muestra el programa para extraer contenido y metadatos de un archivo Java Archive (jar):

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.pkg.PackageParser;

import org.xml.sax.SAXException;

public class PackageParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.jar"));
      ParseContext pcontext = new ParseContext();
      
      //Package parser
      PackageParser packageparser = new PackageParser();
      packageparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document: " + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));
      }
   }
}

Guarde el código anterior como PackageParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac PackageParse.java
java PackageParse

A continuación se muestra la instantánea de Example.java que reside dentro del paquete.

El archivo jar tiene las siguientes propiedades:

Después de ejecutar el programa anterior, le dará el siguiente resultado:

Output -

Contents of the document:

META-INF/MANIFEST.MF
tutorialspoint/tika/examples/Example.class

Metadata of the document:

Content-Type:   application/zip

A continuación se muestra el programa para extraer contenido y metadatos de una imagen JPEG.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.jpeg.JpegParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JpegParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("boy.jpg"));
      ParseContext pcontext = new ParseContext();
      
      //Jpeg Parse
      JpegParser  JpegParser = new JpegParser();
      JpegParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) { 		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como JpegParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac JpegParse.java
java JpegParse

A continuación se muestra la instantánea de Example.jpeg:

El archivo JPEG tiene las siguientes propiedades:

Después de ejecutar el programa, obtendrá el siguiente resultado.

Output −

Contents of the document:

Meta data of the document:

Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference: 53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Y Resolution: 300 dots

A continuación se muestra el programa para extraer contenido y metadatos de archivos mp4:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp4.MP4Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp4Parse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp4"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser
      MP4Parser MP4Parser = new MP4Parser();
      MP4Parser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:  :" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }  
}

Guarde el código anterior como JpegParse.java y compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac Mp4Parse.java
java Mp4Parse

A continuación se muestra la instantánea de las propiedades del archivo Example.mp4.

Después de ejecutar el programa anterior, obtendrá el siguiente resultado:

Output -

Contents of the document:

Metadata of the document:

dcterms:modified: 2014-01-06T12:10:27Z
meta:creation-date: 1904-01-01T00:00:00Z
meta:save-date: 2014-01-06T12:10:27Z
Last-Modified: 2014-01-06T12:10:27Z
dcterms:created: 1904-01-01T00:00:00Z
date: 2014-01-06T12:10:27Z
tiff:ImageLength: 360
modified: 2014-01-06T12:10:27Z
Creation-Date: 1904-01-01T00:00:00Z
tiff:ImageWidth: 640
Content-Type: video/mp4
Last-Save-Date: 2014-01-06T12:10:27Z

A continuación se muestra el programa para extraer contenido y metadatos de archivos mp3:

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp3.LyricsHandler;
import org.apache.tika.parser.mp3.Mp3Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp3Parse {

   public static void main(final String[] args) throws Exception, IOException, SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp3"));
      ParseContext pcontext = new ParseContext();
      
      //Mp3 parser
      Mp3Parser  Mp3Parser = new  Mp3Parser();
      Mp3Parser.parse(inputstream, handler, metadata, pcontext);
      LyricsHandler lyrics = new LyricsHandler(inputstream,handler);
      
      while(lyrics.hasLyrics()) {
    	  System.out.println(lyrics.toString());
      }
      
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
    	  System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Guarde el código anterior como JpegParse.javay compílelo desde el símbolo del sistema utilizando los siguientes comandos:

javac Mp3Parse.java
java Mp3Parse

El archivo Example.mp3 tiene las siguientes propiedades:

Obtendrá el siguiente resultado después de ejecutar el programa. Si el archivo dado tiene alguna letra, nuestra aplicación la capturará y mostrará junto con la salida.

Output -

Contents of the document:

Kanulanu Thaake
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM

Metadata of the document:

xmpDM:releaseDate: 2014
xmpDM:duration: 30171.650390625
xmpDM:audioChannelType: Stereo
dc:creator: Arijit Singh
xmpDM:album: Manam (2014)
Author: Arijit Singh
xmpDM:artist: Arijit Singh
channels: 2
xmpDM:audioSampleRate: 44100
xmpDM:logComment: eng - 
DRGM
xmpDM:trackNumber: 01/06
version: MPEG 3 Layer III Version 1
creator: Arijit Singh
xmpDM:composer: Music : Anoop Rubens | Lyrics : Vanamali
xmpDM:audioCompressor: MP3
title: Kanulanu Thaake
samplerate: 44100
meta:author: Arijit Singh
xmpDM:genre: Soundtrack
Content-Type: audio/mpeg
xmpDM:albumArtist: Manam (2014)
dc:title: Kanulanu Thaake