TIKA - Guide rapide

Qu'est-ce qu'Apache Tika?

  • Apache Tika est une bibliothèque utilisée pour la détection de type de document et l'extraction de contenu à partir de divers formats de fichiers.

  • En interne, Tika utilise divers analyseurs de documents et techniques de détection de types de documents existants pour détecter et extraire les données.

  • En utilisant Tika, on peut développer un détecteur de type universel et un extracteur de contenu pour extraire à la fois du texte structuré et des métadonnées de différents types de documents tels que des feuilles de calcul, des documents texte, des images, des PDF et même des formats d'entrée multimédia dans une certaine mesure.

  • Tika fournit une API générique unique pour analyser différents formats de fichiers. Il utilise des bibliothèques d'analyseurs spécialisées existantes pour chaque type de document.

  • Toutes ces bibliothèques d'analyseurs sont encapsulées sous une seule interface appelée Parser interface.

Pourquoi Tika?

Selon filext.com, il existe environ 15 000 à 51 000 types de contenu, et ce nombre augmente de jour en jour. Les données sont stockées dans divers formats tels que des documents texte, une feuille de calcul Excel, des fichiers PDF, des images et des fichiers multimédias, pour n'en nommer que quelques-uns. Par conséquent, les applications telles que les moteurs de recherche et les systèmes de gestion de contenu ont besoin d'un support supplémentaire pour une extraction facile des données à partir de ces types de documents. Apache Tika sert cet objectif en fournissant une API générique pour localiser et extraire des données à partir de plusieurs formats de fichiers.

Applications Apache Tika

Il existe diverses applications qui utilisent Apache Tika. Ici, nous allons discuter de quelques applications importantes qui dépendent fortement d'Apache Tika.

Moteurs de recherche

Tika est largement utilisé lors du développement de moteurs de recherche pour indexer le contenu textuel des documents numériques.

  • Les moteurs de recherche sont des systèmes de traitement de l'information conçus pour rechercher des informations et des documents indexés sur le Web.

  • Le robot d'exploration est un composant important d'un moteur de recherche qui parcourt le Web pour récupérer les documents à indexer à l'aide d'une technique d'indexation. Ensuite, le robot transfère ces documents indexés vers un composant d'extraction.

  • Le devoir du composant d'extraction est d'extraire le texte et les métadonnées du document. Ces contenus et métadonnées extraits sont très utiles pour un moteur de recherche. Ce composant d'extraction contient Tika.

  • Le contenu extrait est ensuite transmis à l'indexeur du moteur de recherche qui l'utilise pour créer un index de recherche. En dehors de cela, le moteur de recherche utilise également le contenu extrait de nombreuses autres manières.

Analyse documentaire

  • Dans le domaine de l'intelligence artificielle, il existe certains outils pour analyser automatiquement les documents au niveau sémantique et en extraire toutes sortes de données.

  • Dans de telles applications, les documents sont classés en fonction des termes importants dans le contenu extrait du document.

  • Ces outils utilisent Tika pour l'extraction de contenu afin d'analyser des documents allant du texte brut aux documents numériques.

Gestion des actifs numériques

  • Certaines organisations gèrent leurs actifs numériques tels que des photographies, des livres électroniques, des dessins, de la musique et des vidéos à l'aide d'une application spéciale appelée gestion des actifs numériques (DAM).

  • De telles applications utilisent des détecteurs de type de document et un extracteur de métadonnées pour classer les différents documents.

Analyse de contenu

  • Des sites Web comme Amazon recommandent le contenu nouvellement publié de leur site Web aux utilisateurs individuels en fonction de leurs intérêts. Pour ce faire, ces sites Web suiventmachine learning techniques, ou prenez l'aide de sites Web de médias sociaux comme Facebook pour extraire les informations requises telles que les goûts et les intérêts des utilisateurs. Ces informations rassemblées se présenteront sous la forme de balises html ou d'autres formats nécessitant une détection et une extraction supplémentaires du type de contenu.

  • Pour l'analyse du contenu d'un document, nous disposons de technologies qui implémentent des techniques d'apprentissage automatique telles que UIMA et Mahout. Ces technologies sont utiles pour regrouper et analyser les données des documents.

  • Apache Mahoutest un framework qui fournit des algorithmes ML sur Apache Hadoop - une plateforme de cloud computing. Mahout fournit une architecture en suivant certaines techniques de clustering et de filtrage. En suivant cette architecture, les programmeurs peuvent écrire leurs propres algorithmes ML pour produire des recommandations en prenant diverses combinaisons de texte et de métadonnées. Pour fournir des entrées à ces algorithmes, les versions récentes de Mahout utilisent Tika pour extraire du texte et des métadonnées à partir de contenu binaire.

  • Apache UIMAanalyse et traite divers langages de programmation et produit des annotations UIMA. En interne, il utilise Tika Annotator pour extraire le texte et les métadonnées du document.

L'histoire

An Développement
2006 L'idée de Tika a été projetée devant le comité de gestion du projet Lucene.
2006 Le concept de Tika et son utilité dans le projet Jackrabbit ont été discutés.
2007 Tika est entré dans l'incubateur Apache.
2008 Les versions 0.1 et 0.2 ont été publiées et Tika est passée de l'incubateur au sous-projet Lucene.
2009 Les versions 0.3, 0.4 et 0.5 ont été publiées.
2010 Les versions 0.6 et 0.7 ont été publiées et Tika a obtenu son diplôme dans le projet Apache de haut niveau.
2011 Tika 1.0 est sorti et le livre sur Tika "Tika in Action" est également sorti la même année.

Architecture au niveau de l'application de Tika

Les programmeurs d'applications peuvent facilement intégrer Tika dans leurs applications. Tika fournit une interface de ligne de commande et une interface graphique pour le rendre convivial.

Dans ce chapitre, nous aborderons les quatre modules importants qui constituent l'architecture Tika. L'illustration suivante montre l'architecture de Tika avec ses quatre modules -

  • Mécanisme de détection de la langue.
  • Mécanisme de détection MIME.
  • Interface d'analyseur.
  • Classe de façade Tika.

Mécanisme de détection de la langue

Chaque fois qu'un document texte est transmis à Tika, il détecte la langue dans laquelle il a été écrit. Il accepte les documents sans annotation de langue et ajoute ces informations dans les métadonnées du document en détectant la langue.

Pour prendre en charge l'identification de la langue, Tika a une classe appelée Language Identifier dans le paquet org.apache.tika.language, et un référentiel d'identification de langue à l'intérieur qui contient des algorithmes pour la détection de langue à partir d'un texte donné. Tika utilise en interne l'algorithme N-gram pour la détection de la langue.

Mécanisme de détection MIME

Tika peut détecter le type de document selon les normes MIME. La détection du type MIME par défaut dans Tika est effectuée à l'aide de org.apache.tika.mime.mimeTypes . Il utilise l' interface org.apache.tika.detect.Detector pour la plupart des détections de type de contenu.

En interne, Tika utilise plusieurs techniques telles que les globes de fichiers, les indices de type de contenu, les octets magiques, les encodages de caractères et plusieurs autres techniques.

Interface d'analyseur

L'interface analyseur de org.apache.tika.parser est l'interface clé pour l'analyse des documents dans Tika. Cette interface extrait le texte et les métadonnées d'un document et les résume pour les utilisateurs externes souhaitant écrire des plugins d'analyseurs.

En utilisant différentes classes d'analyseurs concrètes, spécifiques aux types de documents individuels, Tika prend en charge de nombreux formats de documents. Ces classes spécifiques au format prennent en charge différents formats de document, soit en implémentant directement la logique de l'analyseur, soit en utilisant des bibliothèques d'analyseurs externes.

Classe de façade Tika

L'utilisation de la classe de façade Tika est la manière la plus simple et directe d'appeler Tika depuis Java, et elle suit le modèle de conception de façade. Vous pouvez trouver la classe de façade Tika dans le package org.apache.tika de l'API Tika.

En mettant en œuvre des cas d'utilisation de base, Tika agit comme un courtier de paysage. Il résume la complexité sous-jacente de la bibliothèque Tika telle que le mécanisme de détection MIME, l'interface parseur et le mécanisme de détection de la langue, et fournit aux utilisateurs une interface simple à utiliser.

Caractéristiques de Tika

  • Unified parser Interface- Tika encapsule toutes les bibliothèques d'analyseurs tiers dans une seule interface d'analyseur. Grâce à cette fonctionnalité, l'utilisateur échappe à la charge de sélectionner la bibliothèque d'analyseur appropriée et l'utilise en fonction du type de fichier rencontré.

  • Low memory usage- Tika consomme moins de ressources mémoire et est donc facilement intégrable avec les applications Java. Nous pouvons également utiliser Tika dans l'application qui fonctionne sur des plates-formes avec moins de ressources comme les PDA mobiles.

  • Fast processing - Une détection et une extraction rapides du contenu des applications peuvent être attendues.

  • Flexible metadata - Tika comprend tous les modèles de métadonnées qui sont utilisés pour décrire les fichiers.

  • Parser integration - Tika peut utiliser différentes bibliothèques d'analyseurs disponibles pour chaque type de document dans une seule application.

  • MIME type detection - Tika peut détecter et extraire le contenu de tous les types de médias inclus dans les normes MIME.

  • Language detection - Tika comprend une fonction d'identification de la langue, peut donc être utilisé dans des documents basés sur le type de langue dans un site Web multilingue.

Fonctionnalités de Tika

Tika prend en charge diverses fonctionnalités -

  • Détection du type de document
  • Extraction de contenu
  • Extraction de métadonnées
  • Détection de la langue

Détection du type de document

Tika utilise diverses techniques de détection et détecte le type de document qui lui est donné.

Extraction de contenu

Tika a une bibliothèque d'analyseurs qui peut analyser le contenu de divers formats de documents et les extraire. Après avoir détecté le type du document, il sélectionne l'analyseur approprié dans le référentiel de l'analyseur et transmet le document. Différentes classes de Tika ont des méthodes pour analyser différents formats de documents.

Extraction de métadonnées

En plus du contenu, Tika extrait les métadonnées du document avec la même procédure que dans l'extraction de contenu. Pour certains types de documents, Tika a des classes pour extraire les métadonnées.

Détection de la langue

En interne, Tika suit des algorithmes comme n-grampour détecter la langue du contenu d'un document donné. Tika dépend de classes commeLanguageidentifier et Profiler pour l'identification de la langue.

Ce chapitre vous guide tout au long du processus de configuration d'Apache Tika sous Windows et Linux. L'administration des utilisateurs est nécessaire lors de l'installation d'Apache Tika.

Configuration requise

JDK Java SE 2 JDK 1.6 ou supérieur
Mémoire 1 Go de RAM (recommandé)
Espace disque Aucune exigence minimale
Version du système d'exploitation Windows XP ou supérieur, Linux

Étape 1: vérification de l'installation de Java

Pour vérifier l'installation de Java, ouvrez la console et exécutez ce qui suit java commander.

OS Tâche Commander
les fenêtres Ouvrir la console de commande \> java –version
Linux Ouvrir le terminal de commande $ java –version

Si Java a été correctement installé sur votre système, vous devriez obtenir l'une des sorties suivantes, en fonction de la plate-forme sur laquelle vous travaillez.

OS Production
les fenêtres

Version Java "1.7.0_60"

Environnement d'exécution Java (TM) SE (build 1.7.0_60-b19)

VM serveur 64 bits Java Hotspot (TM) (build 24.60-b09, mode mixte)

Lunix

version java "1.7.0_25"

Ouvrir l'environnement d'exécution JDK (rhel-2.3.10.4.el6_4-x86_64)

Ouvrez la machine virtuelle serveur JDK 64 bits (build 23.7-b01, mode mixte)

  • Nous supposons que les lecteurs de ce didacticiel ont installé Java 1.7.0_60 sur leur système avant de poursuivre ce didacticiel.

  • Si vous ne disposez pas du SDK Java, téléchargez sa version actuelle sur https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Étape 2: Configuration de l'environnement Java

Définissez la variable d'environnement JAVA_HOME pour qu'elle pointe vers l'emplacement du répertoire de base où Java est installé sur votre machine. Par exemple,

OS Production
les fenêtres Définissez la variable d'environnement JAVA_HOME sur C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux export JAVA_HOME = / usr / local / java-current

Ajoutez le chemin complet de l'emplacement du compilateur Java au chemin système.

OS Production
les fenêtres Ajoutez la chaîne; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin à la fin de la variable système PATH.
Linux export PATH = $ PATH: $ JAVA_HOME / bin /

Vérifiez la commande java-version à partir de l'invite de commande comme expliqué ci-dessus.

Étape 3: Configuration de l'environnement Apache Tika

Les programmeurs peuvent intégrer Apache Tika dans leur environnement en utilisant

  • Ligne de commande,
  • API Tika,
  • Interface de ligne de commande (CLI) de Tika,
  • Interface utilisateur graphique (GUI) de Tika, ou
  • le code source.

Pour l'une de ces approches, tout d'abord, vous devez télécharger le code source de Tika.

Vous trouverez le code source de Tika sur https://Tika.apache.org/download.html, où vous trouverez deux liens -

  • apache-tika-1.6-src.zip - Il contient le code source de Tika, et

  • Tika -app-1.6.jar - C'est un fichier jar qui contient l'application Tika.

Téléchargez ces deux fichiers. Un aperçu du site officiel de Tika est présenté ci-dessous.

Après avoir téléchargé les fichiers, définissez le chemin d'accès aux classes pour le fichier jar tika-app-1.6.jar. Ajoutez le chemin complet du fichier jar comme indiqué dans le tableau ci-dessous.

OS Production
les fenêtres Ajoutez la chaîne «C: \ jars \ Tika-app-1.6.jar» à la variable d'environnement utilisateur CLASSPATH
Linux

Exporter CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache fournit l'application Tika, une application d'interface utilisateur graphique (GUI) utilisant Eclipse.

Construire Tika-Maven avec Eclipse

  • Ouvrez eclipse et créez un nouveau projet.

  • Si vous n'avez pas Maven dans votre Eclipse, configurez-le en suivant les étapes indiquées.

    • Ouvrez le lien https://wiki.eclipse.org/M2E_updatesite_and_gittags . Vous y trouverez les versions du plugin m2e dans un format tabulaire

  • Choisissez la dernière version et enregistrez le chemin de l'url dans la colonne url p2.

  • Maintenant, revisitez eclipse, dans la barre de menu, cliquez sur Help, et choisissez Install New Software dans le menu déroulant

  • Clique le Add, tapez le nom souhaité, car il est facultatif. Collez maintenant l'URL enregistrée dans leLocation champ.

  • Un nouveau plugin sera ajouté avec le nom que vous avez choisi à l'étape précédente, cochez la case en face de lui, et cliquez sur Next.

  • Poursuivez l'installation. Une fois terminé, redémarrez l'Eclipse.

  • Maintenant, faites un clic droit sur le projet, et dans le configure option, sélectionnez convert to maven project.

  • Un nouvel assistant de création d'un nouveau pom apparaît. Entrez l'ID du groupe comme org.apache.tika, entrez la dernière version de Tika, sélectionnez lepackaging comme pot, et cliquez sur Finish.

Le projet Maven est installé avec succès et votre projet est converti en Maven. Vous devez maintenant configurer le fichier pom.xml.

Configurer le fichier XML

Obtenez la dépendance Tika Maven dehttps://mvnrepository.com/artifact/org.apache.tika

Vous trouverez ci-dessous la dépendance Maven complète d'Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>

Les utilisateurs peuvent intégrer Tika dans leurs applications à l'aide de la classe de façade Tika. Il dispose de méthodes pour explorer toutes les fonctionnalités de Tika. Puisqu'il s'agit d'une classe de façade, Tika fait abstraction de la complexité derrière ses fonctions. En plus de cela, les utilisateurs peuvent également utiliser les différentes classes de Tika dans leurs applications.

Classe Tika (façade)

C'est la classe la plus importante de la bibliothèque Tika et suit le modèle de conception de la façade. Par conséquent, il fait abstraction de toutes les implémentations internes et fournit des méthodes simples pour accéder aux fonctionnalités de Tika. Le tableau suivant répertorie les constructeurs de cette classe avec leurs descriptions.

package - org.apache.tika

class - Tika

Sr.No. Constructeur et description
1

Tika ()

Utilise la configuration par défaut et construit la classe Tika.

2

Tika (Detector detector)

Crée une façade Tika en acceptant l'instance de détecteur comme paramètre

3

Tika (Detector detector, Parser parser)

Crée une façade Tika en acceptant les instances de détecteur et d'analyseur comme paramètres.

4

Tika (Detector detector, Parser parser, Translator translator)

Crée une façade Tika en acceptant le détecteur, l'analyseur et l'instance du traducteur comme paramètres.

5

Tika (TikaConfig config)

Crée une façade Tika en acceptant l'objet de la classe TikaConfig comme paramètre.

Méthodes et description

Voici les méthodes importantes de la classe de façade Tika -

Sr.No. Méthodes et description
1

analyserToString (File fichier)

Cette méthode et toutes ses variantes analyse le fichier passé en paramètre et renvoie le contenu du texte extrait au format String. Par défaut, la longueur de ce paramètre de chaîne est limitée.

2

int getMaxStringLength ()

Renvoie la longueur maximale des chaînes renvoyées par les méthodes parseToString.

3

néant setMaxStringLength (int maxStringLength)

Définit la longueur maximale des chaînes renvoyées par les méthodes parseToString.

4

Lecteur parse (File fichier)

Cette méthode et toutes ses variantes analyse le fichier passé en paramètre et renvoie le contenu du texte extrait sous la forme de l'objet java.io.reader.

5

Chaîne detect (InputStream courant, Metadata métadonnées)

Cette méthode et toutes ses variantes acceptent un objet InputStream et un objet Metadata comme paramètres, détecte le type du document donné et retourne le nom du type de document en tant qu'objet String. Cette méthode fait abstraction des mécanismes de détection utilisés par Tika.

6

Chaîne translate (InputStream texte, String langue cible)

Cette méthode et toutes ses variantes acceptent l'objet InputStream et une chaîne représentant la langue dans laquelle nous voulons que notre texte soit traduit, et traduit le texte donné dans la langue souhaitée, en essayant de détecter automatiquement la langue source.

Interface d'analyseur

C'est l'interface qui est implémentée par toutes les classes d'analyseurs du package Tika.

package - org.apache.tika.parser

Interface - Analyseur

Méthodes et description

Voici la méthode importante de l'interface Tika Parser -

Sr.No. Méthodes et description
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Cette méthode analyse le document donné en une séquence d'événements XHTML et SAX. Après l'analyse, il place le contenu du document extrait dans l'objet de la classe ContentHandler et les métadonnées dans l'objet de la classe Metadata.

Classe de métadonnées

Cette classe implémente diverses interfaces telles que CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable pour prendre en charge divers modèles de données. Les tableaux suivants répertorient les constructeurs et les méthodes de cette classe avec leurs descriptions.

package - org.apache.tika.metadata

class - Métadonnées

Sr.No. Constructeur et description
1

Metadata()

Construit une nouvelle métadonnée vide.

Sr.No. Méthodes et description
1

add (Property property, String value)

Ajoute un mappage propriété / valeur de métadonnées à un document donné. En utilisant cette fonction, nous pouvons définir la valeur sur une propriété.

2

add (String name, String value)

Ajoute un mappage propriété / valeur de métadonnées à un document donné. En utilisant cette méthode, nous pouvons définir une nouvelle valeur de nom sur les métadonnées existantes d'un document.

3

String get (Property property)

Renvoie la valeur (le cas échéant) de la propriété de métadonnées donnée.

4

String get (String name)

Renvoie la valeur (le cas échéant) du nom de métadonnées donné.

5

Date getDate (Property property)

Renvoie la valeur de la propriété de métadonnées Date.

6

String[] getValues (Property property)

Renvoie toutes les valeurs d'une propriété de métadonnées.

sept

String[] getValues (String name)

Renvoie toutes les valeurs d'un nom de métadonnées donné.

8

String[] names()

Renvoie tous les noms des éléments de métadonnées dans un objet de métadonnées.

9

set (Property property, Date date)

Définit la valeur de date de la propriété de métadonnées donnée

dix

set(Property property, String[] values)

Définit plusieurs valeurs sur une propriété de métadonnées.

Classe d'identifiant de langue

Cette classe identifie la langue du contenu donné. Les tableaux suivants répertorient les constructeurs de cette classe avec leurs descriptions.

package - org.apache.tika.language

class - Identificateur de langue

Sr.No. Constructeur et description
1

LanguageIdentifier (LanguageProfile profile)

Instancie l'identifiant de langue. Ici, vous devez passer un objet LanguageProfile comme paramètre.

2

LanguageIdentifier (String content)

Ce constructeur peut instancier un identificateur de langue en passant une chaîne à partir du contenu textuel.

Sr.No. Méthodes et description
1

String getLanguage ()

Renvoie la langue donnée à l'objet LanguageIdentifier actuel.

Formats de fichiers pris en charge par Tika

Le tableau suivant présente les formats de fichiers pris en charge par Tika.

Format de fichier Bibliothèque de packages Cours à Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html et utilise la bibliothèque Tagsoup HtmlParser
Document composé MS-Office Ole2 jusqu'en 2007 ooxml à partir de 2007

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml et utilise la bibliothèque Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

OpenOffice au format OpenDocument org.apache.tika.parser.odf OpenOfficeParser
Format de document portable (PDF) org.apache.tika.parser.pdf et ce package utilise la bibliothèque Apache PdfBox PDFParser
Format de publication électronique (livres numériques) org.apache.tika.parser.epub EpubParser
Format de texte enrichi org.apache.tika.parser.rtf RTFParser
Formats de compression et d'emballage org.apache.tika.parser.pkg et ce package utilise la bibliothèque de compression commune PackageParser et CompressorParser et ses sous-classes
Format de texte org.apache.tika.parser.txt TXTParser
Formats d'alimentation et de syndication org.apache.tika.parser.feed FeedParser
Formats audio org.apache.tika.parser.audio et org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- pour mp3parser
Analyseurs d'images org.apache.tika.parser.jpeg JpegParser-pour les images jpeg
Vidéoformats org.apache.tika.parser.mp4 et org.apache.tika.parser.video cet analyseur utilise en interne un algorithme simple pour analyser les formats vidéo flash Mp4parser FlvParser
fichiers de classe java et fichiers jar org.apache.tika.parser.asm ClasseParser CompressorParser
Mobxformat (messages électroniques) org.apache.tika.parser.mbox MobXParser
Formats CAO org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programmes exécutables et bibliothèques org.apache.tika.parser.executable ExécutableParser

Normes MIME

Les normes MIME (Multipurpose Internet Mail Extensions) sont les meilleures normes disponibles pour l'identification des types de documents. La connaissance de ces normes aide le navigateur lors des interactions internes.

Chaque fois que le navigateur rencontre un fichier multimédia, il choisit un logiciel compatible disponible avec lui pour afficher son contenu. Dans le cas où il ne dispose d'aucune application appropriée pour exécuter un fichier multimédia particulier, il recommande à l'utilisateur de se procurer le logiciel de plug-in approprié.

Détection de type dans Tika

Tika prend en charge tous les types de documents multimédias Internet fournis dans MIME. Chaque fois qu'un fichier passe par Tika, il détecte le fichier et son type de document. Pour détecter les types de média, Tika utilise en interne les mécanismes suivants.

Extensions de fichiers

La vérification des extensions de fichier est la méthode la plus simple et la plus utilisée pour détecter le format d'un fichier. De nombreuses applications et systèmes d'exploitation prennent en charge ces extensions. Vous trouverez ci-dessous l'extension de quelques types de fichiers connus.

Nom de fichier Prolongation
image .jpg
l'audio .mp3
fichier d'archive java .pot
fichier de classe java .classe

Conseils de type de contenu

Chaque fois que vous récupérez un fichier d'une base de données ou que vous le joignez à un autre document, vous risquez de perdre le nom ou l'extension du fichier. Dans de tels cas, les métadonnées fournies avec le fichier sont utilisées pour détecter l'extension du fichier.

Octet magique

En observant les octets bruts d'un fichier, vous pouvez trouver des modèles de caractères uniques pour chaque fichier. Certains fichiers ont des préfixes d'octets spéciaux appelésmagic bytes spécialement conçus et inclus dans un fichier dans le but d'identifier le type de fichier

Par exemple, vous pouvez trouver CA FE BA BE (format hexadécimal) dans un fichier java et% PDF (format ASCII) dans un fichier pdf. Tika utilise ces informations pour identifier le type de média d'un fichier.

Codages de caractères

Les fichiers contenant du texte brut sont codés à l'aide de différents types de codage de caractères. Le principal défi ici est d'identifier le type de codage de caractères utilisé dans les fichiers. Tika suit des techniques d'encodage de caractères commeBom markers et Byte Frequencies pour identifier le système de codage utilisé par le contenu en texte brut.

Caractères racine XML

Pour détecter les documents XML, Tika analyse les documents xml et extrait les informations telles que les éléments racine, les espaces de noms et les schémas référencés à partir desquels le véritable type de média des fichiers peut être trouvé.

Détection de type à l'aide de la classe de façade

le detect()La méthode de classe de façade est utilisée pour détecter le type de document. Cette méthode accepte un fichier en entrée. Vous trouverez ci-dessous un exemple de programme de détection de type de document avec la classe de façade Tika.

import java.io.File;

import org.apache.tika.Tika;

public class Typedetection {

   public static void main(String[] args) throws Exception {

      //assume example.mp3 is in your current directory
      File file = new File("example.mp3");//
      
      //Instantiating tika facade class 
      Tika tika = new Tika();
      
      //detecting the file type using detect method
      String filetype = tika.detect(file);
      System.out.println(filetype);
   }
}

Enregistrez le code ci-dessus sous TypeDetection.java et exécutez-le à partir de l'invite de commande à l'aide des commandes suivantes -

javac TypeDetection.java
java TypeDetection 

audio/mpeg

Tika utilise diverses bibliothèques d'analyseurs pour extraire le contenu d'analyseurs donnés. Il choisit le bon analyseur pour extraire le type de document donné.

Pour l'analyse des documents, la méthode parseToString () de la classe de façade Tika est généralement utilisée. Vous trouverez ci-dessous les étapes impliquées dans le processus d'analyse et celles-ci sont résumées par la méthode Tika ParsertoString ().

Résumé du processus d'analyse -

  • Au départ, lorsque nous transmettons un document à Tika, il utilise un mécanisme de détection de type approprié disponible avec celui-ci et détecte le type de document.

  • Une fois que le type de document est connu, il choisit un analyseur approprié dans son référentiel d'analyseurs. Le référentiel de l'analyseur contient des classes qui utilisent des bibliothèques externes.

  • Ensuite, le document est passé pour choisir l'analyseur qui analysera le contenu, extraira le texte et lancera également des exceptions pour les formats illisibles.

Extraction de contenu à l'aide de Tika

Vous trouverez ci-dessous le programme d'extraction de texte d'un fichier à l'aide de la classe de façade Tika -

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import org.xml.sax.SAXException;

public class TikaExtraction {
	
   public static void main(final String[] args) throws IOException, TikaException {

      //Assume sample.txt is in your current directory		        
      File file = new File("sample.txt");
      
      //Instantiating Tika facade class
      Tika tika = new Tika();
      String filecontent = tika.parseToString(file);
      System.out.println("Extracted Content: " + filecontent);
   }		 
}

Enregistrez le code ci-dessus sous TikaExtraction.java et exécutez-le à partir de l'invite de commande -

javac TikaExtraction.java 
java TikaExtraction

Ci-dessous, le contenu de sample.txt.

Hi students welcome to tutorialspoint

Il vous donne la sortie suivante -

Extracted Content: Hi students welcome to tutorialspoint

Extraction de contenu à l'aide de l'interface d'analyseur

Le package parser de Tika fournit plusieurs interfaces et classes à l'aide desquelles nous pouvons analyser un document texte. Vous trouverez ci-dessous le schéma de principe duorg.apache.tika.parser paquet.

Il existe plusieurs classes d'analyseurs disponibles, par exemple, l'analyseur pdf, Mp3Passer, OfficeParser, etc., pour analyser les documents respectifs individuellement. Toutes ces classes implémentent l'interface de l'analyseur.

CompositeParser

Le diagramme donné montre les classes d'analyseurs polyvalentes de Tika: CompositeParser et AutoDetectParser. Étant donné que la classe CompositeParser suit le modèle de conception composite, vous pouvez utiliser un groupe d'instances d'analyseur en tant qu'analyseur unique. La classe CompositeParser permet également d'accéder à toutes les classes qui implémentent l'interface de l'analyseur.

AutoDetectParser

Il s'agit d'une sous-classe de CompositeParser et il fournit une détection de type automatique. En utilisant cette fonctionnalité, AutoDetectParser envoie automatiquement les documents entrants aux classes d'analyseur appropriées à l'aide de la méthodologie composite.

méthode parse ()

Avec parseToString (), vous pouvez également utiliser la méthode parse () de l'interface parser. Le prototype de cette méthode est présenté ci-dessous.

parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Le tableau suivant répertorie les quatre objets qu'il accepte comme paramètres.

Sr.No. Objet et description
1

InputStream stream

Tout objet Inputstream contenant le contenu du fichier

2

ContentHandler handler

Tika transmet le document en tant que contenu XHTML à ce gestionnaire, après quoi le document est traité à l'aide de SAX API. Il permet un post-traitement efficace du contenu d'un document.

3

Metadata metadata

L'objet de métadonnées est utilisé à la fois comme source et comme cible des métadonnées du document.

4

ParseContext context

Cet objet est utilisé dans les cas où l'application cliente souhaite personnaliser le processus d'analyse.

Exemple

Vous trouverez ci-dessous un exemple qui montre comment la méthode parse () est utilisée.

Step 1 -

Pour utiliser la méthode parse () de l'interface de l'analyseur, instanciez l'une des classes fournissant l'implémentation de cette interface.

Il existe des classes d'analyseurs individuelles telles que PDFParser, OfficeParser, XMLParser, etc. Vous pouvez utiliser n'importe lequel de ces analyseurs de documents individuels. Vous pouvez également utiliser CompositeParser ou AutoDetectParser qui utilise toutes les classes d'analyseur en interne et extrait le contenu d'un document à l'aide d'un analyseur approprié.

Parser parser = new AutoDetectParser();
   (or)
Parser parser = new CompositeParser();  
   (or)        
object of any individual parsers given in Tika Library

Step 2 -

Créez un objet de classe de gestionnaire. Vous trouverez ci-dessous les trois gestionnaires de contenu -

Sr.No. Classe et description
1

BodyContentHandler

Cette classe sélectionne la partie corps de la sortie XHTML et écrit ce contenu dans l'enregistreur de sortie ou le flux de sortie. Ensuite, il redirige le contenu XHTML vers une autre instance de gestionnaire de contenu.

2

LinkContentHandler

Cette classe détecte et sélectionne toutes les balises H-Ref du document XHTML et les transmet pour l'utilisation d'outils tels que les robots d'exploration Web.

3

TeeContentHandler

Cette classe aide à utiliser plusieurs outils simultanément.

Puisque notre objectif est d'extraire le contenu du texte d'un document, instanciez BodyContentHandler comme indiqué ci-dessous -

BodyContentHandler handler = new BodyContentHandler( );

Step 3 -

Créez l'objet Metadata comme indiqué ci-dessous -

Metadata metadata = new Metadata();

Step 4 -

Créez l'un des objets de flux d'entrée et transmettez-lui votre fichier qui doit être extrait.

FileInputstream

Instanciez un objet fichier en passant le chemin du fichier en tant que paramètre et transmettez cet objet au constructeur de classe FileInputStream.

Note - Le chemin transmis à l'objet fichier ne doit pas contenir d'espaces.

Le problème avec ces classes de flux d'entrée est qu'elles ne prennent pas en charge les lectures à accès aléatoire, ce qui est nécessaire pour traiter efficacement certains formats de fichiers. Pour résoudre ce problème, Tika fournit TikaInputStream.

File  file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
   (or)
InputStream stream = TikaInputStream.get(new File(filename));

Step 5 -

Créez un objet de contexte d'analyse comme indiqué ci-dessous -

ParseContext context =new ParseContext();

Step 6 -

Instanciez l'objet parser, appelez la méthode parse et transmettez tous les objets requis, comme indiqué dans le prototype ci-dessous -

parser.parse(inputstream, handler, metadata, context);

Vous trouverez ci-dessous le programme d'extraction de contenu à l'aide de l'interface parseur -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class ParserExtraction {
	
   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //Assume sample.txt is in your current directory
      File file = new File("sample.txt");
      
      //parse method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //parsing the file
      parser.parse(inputstream, handler, metadata, context);
      System.out.println("File content : " + Handler.toString());
   }
}

Enregistrez le code ci-dessus sous ParserExtraction.java et exécutez-le à partir de l'invite de commande -

javac  ParserExtraction.java 
java  ParserExtraction

Ci-dessous, le contenu de sample.txt

Hi students welcome to tutorialspoint

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -

File content : Hi students welcome to tutorialspoint

Outre le contenu, Tika extrait également les métadonnées d'un fichier. Les métadonnées ne sont rien d'autre que les informations supplémentaires fournies avec un fichier. Si l'on considère un fichier audio, le nom de l'artiste, le nom de l'album, le titre font partie des métadonnées.

Normes XMP

La plate-forme de métadonnées extensible (XMP) est une norme pour le traitement et le stockage des informations liées au contenu d'un fichier. Il a été créé par Adobe Systems Inc . XMP fournit des normes pour la définition, la création et le traitement des métadonnées . Vous pouvez intégrer cette norme dans plusieurs formats de fichiers tels que PDF , JPEG , JPEG , GIF , jpg , HTML, etc.

Classe de propriété

Tika utilise la classe Property pour suivre la définition de propriété XMP. Il fournit les énumérations PropertyType et ValueType pour capturer le nom et la valeur d'une métadonnée.

Classe de métadonnées

Cette classe implémente diverses interfaces telles que ClimateForcast , CativeCommons, Geographic , TIFF, etc. pour prendre en charge divers modèles de métadonnées. De plus, cette classe fournit diverses méthodes pour extraire le contenu d'un fichier.

Noms des métadonnées

Nous pouvons extraire la liste de tous les noms de métadonnées d'un fichier à partir de son objet de métadonnées en utilisant la méthode names () . Il renvoie tous les noms sous forme de tableau de chaînes. En utilisant le nom des métadonnées, nous pouvons obtenir la valeur en utilisant leget()méthode. Il prend un nom de métadonnées et renvoie une valeur qui lui est associée.

String[] metadaNames = metadata.names();

String value = metadata.get(name);

Extraction de métadonnées à l'aide de la méthode Parse

Chaque fois que nous analysons un fichier à l'aide de parse (), nous passons un objet de métadonnées vide comme l'un des paramètres. Cette méthode extrait les métadonnées du fichier donné (si ce fichier en contient) et les place dans l'objet de métadonnées. Par conséquent, après avoir analysé le fichier à l'aide de parse (), nous pouvons extraire les métadonnées de cet objet.

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();   //empty metadata object 
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);

// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();

Vous trouverez ci-dessous le programme complet pour extraire les métadonnées d'un fichier texte.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class GetMetadata {
	
   public static void main(final String[] args) throws IOException, TikaException {
	
      //Assume that boy.jpg is in your current directory
      File file = new File("boy.jpg");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      parser.parse(inputstream, handler, metadata, context);
      System.out.println(handler.toString());

      //getting the list of all meta data elements 
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous GetMetadata.java et exécutez-le à partir de l'invite de commande à l'aide des commandes suivantes -

javac  GetMetadata .java
java  GetMetadata

Ci-dessous, un instantané de boy.jpg

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -

X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
   53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots

Nous pouvons également obtenir les valeurs de métadonnées souhaitées.

Ajout de nouvelles valeurs de métadonnées

Nous pouvons ajouter de nouvelles valeurs de métadonnées en utilisant la méthode add () de la classe de métadonnées. Voici la syntaxe de cette méthode. Ici, nous ajoutons le nom de l'auteur.

metadata.add(“author”,”Tutorials point”);

La classe Metadata a des propriétés prédéfinies, y compris les propriétés héritées de classes telles que ClimateForcast , CativeCommons, Geographic , etc., pour prendre en charge divers modèles de données. Vous trouverez ci-dessous l'utilisation du type de données SOFTWARE hérité de l'interface TIFF implémentée par Tika pour suivre les normes de métadonnées XMP pour les formats d'image TIFF.

metadata.add(Metadata.SOFTWARE,"ms paint");

Vous trouverez ci-dessous le programme complet qui montre comment ajouter des valeurs de métadonnées à un fichier donné. Ici, la liste des éléments de métadonnées est affichée dans la sortie afin que vous puissiez observer le changement dans la liste après l'ajout de nouvelles valeurs.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class AddMetadata {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //create a file object and assume sample.txt is in your current directory
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();

      //parsing the document
      parser.parse(inputstream, handler, metadata, context);

      //list of meta data elements before adding new elements
      System.out.println( " metadata elements :"  +Arrays.toString(metadata.names()));

      //adding new meta data name value pair
      metadata.add("Author","Tutorials Point");
      System.out.println(" metadata name value pair is successfully added");
      
      //printing all the meta data elements after adding new elements
      System.out.println("Here is the list of all the metadata 
         elements after adding new elements");
      System.out.println( Arrays.toString(metadata.names()));
   }
}

Enregistrez le code ci-dessus en tant que classe AddMetadata.java et exécutez-le à partir de l'invite de commande -

javac  AddMetadata .java 
java  AddMetadata

Ci-dessous, le contenu de Example.txt

Hi students welcome to tutorialspoint

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -

metadata elements of the given file :
[Content-Encoding, Content-Type] 
enter the number of metadata name value pairs to be added 1
enter metadata1name: 
Author enter metadata1value: 
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements  after adding new elements
[Content-Encoding, Author, Content-Type]

Définition des valeurs des éléments de métadonnées existants

Vous pouvez définir des valeurs pour les éléments de métadonnées existants à l'aide de la méthode set (). La syntaxe de définition de la propriété date à l'aide de la méthode set () est la suivante:

metadata.set(Metadata.DATE, new Date());

Vous pouvez également définir plusieurs valeurs pour les propriétés à l'aide de la méthode set (). La syntaxe de la définition de plusieurs valeurs à la propriété Author à l'aide de la méthode set () est la suivante:

metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");

Vous trouverez ci-dessous le programme complet démontrant la méthode set ().

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import java.util.Date;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class SetMetadata {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {
   
      //Create a file object and assume example.txt is in your current directory
      File file = new File("example.txt");
      
      //parameters of parse() method
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //Parsing the given file
      parser.parse(inputstream, handler, metadata, context);
     
      //list of meta data elements elements
      System.out.println( " metadata elements and values of the given file :");
      String[] metadataNamesb4 = metadata.names();
      
      for(String name : metadataNamesb4) {
    	  System.out.println(name + ": " + metadata.get(name));
      }
      
      //setting date meta data 
      metadata.set(Metadata.DATE, new Date());
      
      //setting multiple values to author property
      metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
      
      //printing all the meta data elements with new elements
      System.out.println("List of all the metadata elements  after adding new elements ");
      String[] metadataNamesafter = metadata.names();
      
      for(String name : metadataNamesafter) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous SetMetadata.java et exécutez-le à partir de l'invite de commande -

javac  SetMetadata.java 
java  SetMetadata

Ci-dessous, le contenu de example.txt.

Hi students welcome to tutorialspoint

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante. Dans la sortie, vous pouvez observer les éléments de métadonnées nouvellement ajoutés.

metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements  after adding new elements 
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin 
Content-Type: text/plain; charset = ISO-8859-1

Besoin de détection de la langue

Pour classer les documents en fonction de la langue dans laquelle ils sont écrits sur un site Web multilingue, un outil de détection de la langue est nécessaire. Cet outil doit accepter les documents sans annotation de langue (métadonnées) et ajouter ces informations dans les métadonnées du document en détectant la langue.

Algorithmes de profilage du corpus

Qu'est-ce que Corpus?

Pour détecter la langue d'un document, un profil de langue est construit et comparé au profil des langues connues. L'ensemble de texte de ces langues connues est appelécorpus.

Un corpus est une collection de textes d'une langue écrite qui explique comment la langue est utilisée dans des situations réelles.

Le corpus est développé à partir de livres, de transcriptions et d'autres ressources de données comme Internet. La précision du corpus dépend de l'algorithme de profilage que nous utilisons pour encadrer le corpus.

Que sont les algorithmes de profilage?

La méthode courante de détection des langues consiste à utiliser des dictionnaires. Les mots utilisés dans un morceau de texte donné seront mis en correspondance avec ceux qui sont dans les dictionnaires.

Une liste de mots courants utilisés dans une langue sera le corpus le plus simple et le plus efficace pour détecter une langue particulière, par exemple des articles a, an, the en anglais.

Utilisation d'ensembles de mots comme corpus

En utilisant des ensembles de mots, un algorithme simple est encadré pour trouver la distance entre deux corpus, qui sera égale à la somme des différences entre les fréquences des mots correspondants.

Ces algorithmes souffrent des problèmes suivants -

  • Étant donné que la fréquence de correspondance des mots est très inférieure, l'algorithme ne peut pas fonctionner efficacement avec de petits textes contenant peu de phrases. Il a besoin de beaucoup de texte pour une correspondance précise.

  • Il ne peut pas détecter les limites de mots pour les langues ayant des phrases composées et celles n'ayant pas de séparateurs de mots comme les espaces ou les signes de ponctuation.

En raison de ces difficultés d'utilisation des ensembles de mots comme corpus, des caractères individuels ou des groupes de caractères sont pris en compte.

Utilisation des jeux de caractères comme corpus

Comme les caractères couramment utilisés dans une langue sont en nombre fini, il est facile d'appliquer un algorithme basé sur la fréquence des mots plutôt que sur les caractères. Cet algorithme fonctionne encore mieux dans le cas de certains jeux de caractères utilisés dans une ou très peu de langues.

Cet algorithme souffre des inconvénients suivants -

  • Il est difficile de différencier deux langues ayant des fréquences de caractères similaires.

  • Il n'y a pas d'outil ou d'algorithme spécifique pour identifier spécifiquement une langue à l'aide (en tant que corpus) du jeu de caractères utilisé par plusieurs langues.

Algorithme N-gramme

Les inconvénients évoqués ci-dessus ont donné lieu à une nouvelle approche d'utilisation de séquences de caractères d'une longueur donnée pour le profilage de corpus. Une telle séquence de caractères est appelée en général N-grammes, où N représente la longueur de la séquence de caractères.

  • L'algorithme N-gram est une approche efficace pour la détection de la langue, en particulier dans le cas de langues européennes comme l'anglais.

  • Cet algorithme fonctionne très bien avec des textes courts.

  • Bien qu'il existe des algorithmes de profilage de langue avancés pour détecter plusieurs langues dans un document multilingue ayant des fonctionnalités plus attrayantes, Tika utilise l'algorithme de 3 grammes, car il convient à la plupart des situations pratiques.

Détection de la langue dans Tika

Parmi les 184 langues standard normalisées par ISO 639-1, Tika peut détecter 18 langues. La détection de la langue dans Tika se fait à l'aide dugetLanguage() méthode de la LanguageIdentifierclasse. Cette méthode renvoie le nom de code de la langue au format String. Ci-dessous, la liste des 18 paires de code langue détectées par Tika -

da: danois de — allemand et — Estonien el — grec
en — anglais es: espagnol fi: finnois fr — français
hu: hongrois is-islandais it — italien nl: néerlandais
non: norvégien pl: polonais pt: portugais ru: russe
sv: suédois th — thaï

Lors de l'instanciation du LanguageIdentifier class, vous devez passer le format String du contenu à extraire, ou un LanguageProfile objet de classe.

LanguageIdentifier object = new LanguageIdentifier(“this is english”);

Vous trouverez ci-dessous l'exemple de programme pour la détection de la langue dans Tika.

import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;

import org.xml.sax.SAXException;

public class LanguageDetection {

   public static void main(String args[])throws IOException, SAXException, TikaException {

      LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
      String language = identifier.getLanguage();
      System.out.println("Language of the given content is : " + language);
   }
}

Enregistrez le code ci-dessus sous LanguageDetection.java et exécutez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac  LanguageDetection.java 
java  LanguageDetection

Si vous exécutez le programme ci-dessus, il donne l'outpu:

Language of the given content is : en

Détection de la langue d'un document

Pour détecter la langue d'un document donné, vous devez l'analyser en utilisant la méthode parse (). La méthode parse () analyse le contenu et le stocke dans l'objet gestionnaire, qui lui a été transmis comme l'un des arguments. Transmettez le format String de l'objet handler au constructeur duLanguageIdentifier classe comme indiqué ci-dessous -

parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());

Vous trouverez ci-dessous le programme complet qui montre comment détecter la langue d'un document donné -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;

import org.xml.sax.SAXException;

public class DocumentLanguageDetection {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //Instantiating a file object
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream content = new FileInputStream(file);

      //Parsing the given document
      parser.parse(content, handler, metadata, new ParseContext());

      LanguageIdentifier object = new LanguageIdentifier(handler.toString());
      System.out.println("Language name :" + object.getLanguage());
   }
}

Enregistrez le code ci-dessus sous SetMetadata.java et exécutez-le à partir de l'invite de commande -

javac  SetMetadata.java 
java  SetMetadata

Ci-dessous, le contenu de Example.txt.

Hi students welcome to tutorialspoint

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -

Language name :en

Avec le jar Tika, Tika fournit une application d'interface utilisateur graphique (GUI) et une application d'interface de ligne de commande (CLI). Vous pouvez également exécuter une application Tika à partir de l'invite de commande, comme d'autres applications Java.

Interface utilisateur graphique (GUI)

  • Tika fournit un fichier jar avec son code source dans le lien suivant https://tika.apache.org/download.html.

  • Téléchargez les deux fichiers, définissez le chemin de classe pour le fichier jar.

  • Extrayez le dossier zip du code source, ouvrez le dossier tika-app.

  • Dans le dossier extrait à «tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui», vous verrez deux fichiers de classe: ParsingTransferHandler.java et TikaGUI.java.

  • Compilez les deux fichiers de classe et exécutez le fichier de classe TikaGUI.java, cela ouvre la fenêtre suivante.

Voyons maintenant comment utiliser l'interface graphique de Tika.

Sur l'interface graphique, cliquez sur Ouvrir, parcourez et sélectionnez un fichier à extraire ou faites-le glisser sur l'espace blanc de la fenêtre.

Tika extrait le contenu des fichiers et l'affiche dans cinq formats différents, à savoir. métadonnées, texte formaté, texte brut, contenu principal et texte structuré. Vous pouvez choisir n'importe quel format de votre choix.

De la même manière, vous trouverez également la classe CLI dans le dossier «tika-1.6 \ tikaapp \ src \ main \ java \ org \ apache \ tika \ cli».

L'illustration suivante montre ce que Tika peut faire. Lorsque nous déposons l'image sur l'interface graphique, Tika extrait et affiche ses métadonnées.

Ci-dessous est le programme pour extraire le contenu et les métadonnées d'un PDF.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class PdfParse {

   public static void main(final String[] args) throws IOException,TikaException {

      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
      ParseContext pcontext = new ParseContext();
      
      //parsing the document using PDF parser
      PDFParser pdfparser = new PDFParser(); 
      pdfparser.parse(inputstream, handler, metadata,pcontext);
      
      //getting the content of the document
      System.out.println("Contents of the PDF :" + handler.toString());
      
      //getting metadata of the document
      System.out.println("Metadata of the PDF:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name+ " : " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous PdfParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac PdfParse.java
java PdfParse

Ci-dessous, un aperçu de example.pdf

Le PDF que nous transmettons a les propriétés suivantes -

Après avoir compilé le programme, vous obtiendrez la sortie comme indiqué ci-dessous.

Output -

Contents of the PDF:

Apache Tika is a framework for content type detection and content extraction 
which was designed by Apache software foundation. It detects and extracts metadata 
and structured text content from different types of documents such as spreadsheets, 
text documents, images or PDFs including audio or video input formats to certain extent.

Metadata of the PDF:

dcterms:modified :     2014-09-28T12:31:16Z
meta:creation-date :     2014-09-28T12:31:16Z
meta:save-date :     2014-09-28T12:31:16Z
dc:creator :     Krishna Kasyap
pdf:PDFVersion :     1.5
Last-Modified :     2014-09-28T12:31:16Z
Author :     Krishna Kasyap
dcterms:created :     2014-09-28T12:31:16Z
date :     2014-09-28T12:31:16Z
modified :     2014-09-28T12:31:16Z
creator :     Krishna Kasyap
xmpTPg:NPages :     1
Creation-Date :     2014-09-28T12:31:16Z
pdf:encrypted :     false
meta:author :     Krishna Kasyap
created :     Sun Sep 28 05:31:16 PDT 2014
dc:format :     application/pdf; version = 1.5
producer :     Microsoft® Word 2013
Content-Type :     application/pdf
xmp:CreatorTool :     Microsoft® Word 2013
Last-Save-Date :     2014-09-28T12:31:16Z

Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées du format de document Open Office (ODF).

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.odf.OpenDocumentParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class OpenDocumentParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_open_document_presentation.odp"));
      ParseContext pcontext = new ParseContext();
      
      //Open Document Parser
      OpenDocumentParser openofficeparser = new OpenDocumentParser (); 
      openofficeparser.parse(inputstream, handler, metadata,pcontext); 
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name)); 
      }
   }
}

Enregistrez le code ci-dessus sous OpenDocumentParse.javaet compilez-le dans l'invite de commande à l'aide des commandes suivantes -

javac OpenDocumentParse.java
java OpenDocumentParse

Ci-dessous, un instantané du fichier example_open_document_presentation.odp.

Ce document a les propriétés suivantes -

Après avoir compilé le programme, vous obtiendrez la sortie suivante.

Output -

Contents of the document:

Apache Tika
Apache Tika is a framework for content type detection and content extraction which was designed 
by Apache software foundation. It detects and extracts metadata and structured text content from 
different types of documents such as spreadsheets, text documents, images or PDFs including audio 
or video input formats to certain extent. 

Metadata of the document:

editing-cycles:   4
meta:creation-date:   2009-04-16T11:32:32.86
dcterms:modified:   2014-09-28T07:46:13.03
meta:save-date:   2014-09-28T07:46:13.03
Last-Modified:   2014-09-28T07:46:13.03
dcterms:created:   2009-04-16T11:32:32.86
date:   2014-09-28T07:46:13.03
modified:   2014-09-28T07:46:13.03
nbObject:   36
Edit-Time:   PT32M6S
Creation-Date:   2009-04-16T11:32:32.86
Object-Count:   36
meta:object-count:   36
generator:   OpenOffice/4.1.0$Win32 OpenOffice.org_project/410m18$Build-9764
Content-Type:   application/vnd.oasis.opendocument.presentation
Last-Save-Date:   2014-09-28T07:46:13.03

Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un document Microsoft Office.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class MSExcelParse {

   public static void main(final String[] args) throws IOException, TikaException {
      
      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_msExcel.xlsx"));
      ParseContext pcontext = new ParseContext();
      
      //OOXml parser
      OOXMLParser  msofficeparser = new OOXMLParser (); 
      msofficeparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous MSExelParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac MSExcelParse.java
java MSExcelParse

Ici, nous transmettons l'exemple de fichier Excel suivant.

Le fichier Excel donné a les propriétés suivantes -

Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante.

Output -

Contents of the document:

Sheet1
Name	Age	Designation		Salary
Ramu	50	Manager			50,000
Raheem	40	Assistant manager	40,000
Robert	30	Superviser		30,000
sita	25	Clerk			25,000
sameer	25	Section in-charge	20,000

Metadata of the document:

meta:creation-date:    2006-09-16T00:00:00Z
dcterms:modified:    2014-09-28T15:18:41Z
meta:save-date:    2014-09-28T15:18:41Z
Application-Name:    Microsoft Excel
extended-properties:Company:    
dcterms:created:    2006-09-16T00:00:00Z
Last-Modified:    2014-09-28T15:18:41Z
Application-Version:    15.0300
date:    2014-09-28T15:18:41Z
publisher:    
modified:    2014-09-28T15:18:41Z
Creation-Date:    2006-09-16T00:00:00Z
extended-properties:AppVersion:    15.0300
protected:    false
dc:publisher:    
extended-properties:Application:    Microsoft Excel
Content-Type:    application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Last-Save-Date:    2014-09-28T15:18:41Z

Ci-dessous est le programme pour extraire le contenu et les métadonnées d'un document texte -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;

import org.xml.sax.SAXException;

public class TextParser {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.txt"));
      ParseContext pcontext=new ParseContext();
      
      //Text document parser
      TXTParser  TexTParser = new TXTParser();
      TexTParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + " : " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous TextParser.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac TextParser.java
java TextParser

Ci-dessous, un instantané du fichier sample.txt -

Le document texte a les propriétés suivantes -

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante.

Output -

Contents of the document:

At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning 
purpose in the domains of Academics, Information Technology, Management and Computer 
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing 
director of Tutorials Point (I) Pvt. Ltd. He came up with the website tutorialspoint.com 
in year 2006 with the help of handpicked freelancers, with an array of tutorials for 
computer programming languages.

Metadata of the document:

Content-Encoding:   windows-1252
Content-Type:   text/plain; charset = windows-1252

Ci-dessous, le programme pour extraire le contenu et les métadonnées d'un document HTML.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.html"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser 
      HtmlParser htmlparser = new HtmlParser();
      htmlparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));  
      }
   }
}

Enregistrez le code ci-dessus sous HtmlParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac HtmlParse.java
java HtmlParse

Ci-dessous, un instantané du fichier example.txt.

Le document HTML a les propriétés suivantes -

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante.

Output -

Contents of the document:

	Name	                     Salary	    age
	Ramesh Raman	             50000	    20
	Shabbir Hussein	             70000          25
	Umesh Raman	             50000	    30
	Somesh	                     50000	    35

Metadata of the document:

title:   HTML Table Header
Content-Encoding:   windows-1252
Content-Type:   text/html; charset = windows-1252
dc:title:   HTML Table Header

Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un document XML -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class XmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("pom.xml"));
      ParseContext pcontext = new ParseContext();
      
      //Xml parser
      XMLParser xmlparser = new XMLParser(); 
      xmlparser.parse(inputstream, handler, metadata, pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous XmlParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac XmlParse.java
java XmlParse

Ci-dessous, un instantané du fichier example.xml

Ce document a les propriétés suivantes -

Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -

Output -

Contents of the document:
  
4.0.0
org.apache.tika
tika
1.6
org.apache.tika
tika-core
1.6
org.apache.tika
tika-parsers
1.6
src
maven-compiler-plugin
3.1
1.7
1.7

Metadata of the document:

Content-Type:   application/xml

Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un fichier .class.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.asm.ClassParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JavaClassParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.class"));
      ParseContext pcontext = new ParseContext();

      //Html parser
      ClassParser  ClassParser = new  ClassParser();
      ClassParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name));  
      }
   }
}

Enregistrez le code ci-dessus sous JavaClassParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac JavaClassParse.java
java JavaClassParse

Ci-dessous, un aperçu de Example.java qui générera Example.class après la compilation.

Example.class le fichier a les propriétés suivantes -

Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante.

Output -

Contents of the document:

package tutorialspoint.tika.examples;
public synchronized class Example {
   public void Example();
   public static void main(String[]);
}

Metadata of the document:

title: Example
resourceName: Example.class
dc:title: Example

Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un fichier Java Archive (jar) -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.pkg.PackageParser;

import org.xml.sax.SAXException;

public class PackageParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.jar"));
      ParseContext pcontext = new ParseContext();
      
      //Package parser
      PackageParser packageparser = new PackageParser();
      packageparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document: " + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous PackageParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac PackageParse.java
java PackageParse

Ci-dessous, un instantané de Example.java qui réside dans le package.

Le fichier jar a les propriétés suivantes -

Après avoir exécuté le programme ci-dessus, il vous donnera la sortie suivante -

Output -

Contents of the document:

META-INF/MANIFEST.MF
tutorialspoint/tika/examples/Example.class

Metadata of the document:

Content-Type:   application/zip

Ci-dessous, le programme pour extraire le contenu et les métadonnées d'une image JPEG.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.jpeg.JpegParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JpegParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("boy.jpg"));
      ParseContext pcontext = new ParseContext();
      
      //Jpeg Parse
      JpegParser  JpegParser = new JpegParser();
      JpegParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) { 		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous JpegParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac JpegParse.java
java JpegParse

Ci-dessous, un instantané de Example.jpeg -

Le fichier JPEG a les propriétés suivantes -

Après avoir exécuté le programme, vous obtiendrez la sortie suivante.

Output −

Contents of the document:

Meta data of the document:

Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference: 53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Y Resolution: 300 dots

Ci-dessous, le programme pour extraire le contenu et les métadonnées des fichiers mp4 -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp4.MP4Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp4Parse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp4"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser
      MP4Parser MP4Parser = new MP4Parser();
      MP4Parser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:  :" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }  
}

Enregistrez le code ci-dessus sous JpegParse.java et compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac Mp4Parse.java
java Mp4Parse

Ci-dessous, un aperçu des propriétés du fichier Example.mp4.

Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante -

Output -

Contents of the document:

Metadata of the document:

dcterms:modified: 2014-01-06T12:10:27Z
meta:creation-date: 1904-01-01T00:00:00Z
meta:save-date: 2014-01-06T12:10:27Z
Last-Modified: 2014-01-06T12:10:27Z
dcterms:created: 1904-01-01T00:00:00Z
date: 2014-01-06T12:10:27Z
tiff:ImageLength: 360
modified: 2014-01-06T12:10:27Z
Creation-Date: 1904-01-01T00:00:00Z
tiff:ImageWidth: 640
Content-Type: video/mp4
Last-Save-Date: 2014-01-06T12:10:27Z

Ci-dessous est le programme pour extraire le contenu et les métadonnées des fichiers mp3 -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp3.LyricsHandler;
import org.apache.tika.parser.mp3.Mp3Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp3Parse {

   public static void main(final String[] args) throws Exception, IOException, SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp3"));
      ParseContext pcontext = new ParseContext();
      
      //Mp3 parser
      Mp3Parser  Mp3Parser = new  Mp3Parser();
      Mp3Parser.parse(inputstream, handler, metadata, pcontext);
      LyricsHandler lyrics = new LyricsHandler(inputstream,handler);
      
      while(lyrics.hasLyrics()) {
    	  System.out.println(lyrics.toString());
      }
      
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
    	  System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Enregistrez le code ci-dessus sous JpegParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -

javac Mp3Parse.java
java Mp3Parse

Le fichier Example.mp3 a les propriétés suivantes -

Vous obtiendrez la sortie suivante après avoir exécuté le programme. Si le fichier donné contient des paroles, notre application les capturera et les affichera avec la sortie.

Output -

Contents of the document:

Kanulanu Thaake
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM

Metadata of the document:

xmpDM:releaseDate: 2014
xmpDM:duration: 30171.650390625
xmpDM:audioChannelType: Stereo
dc:creator: Arijit Singh
xmpDM:album: Manam (2014)
Author: Arijit Singh
xmpDM:artist: Arijit Singh
channels: 2
xmpDM:audioSampleRate: 44100
xmpDM:logComment: eng - 
DRGM
xmpDM:trackNumber: 01/06
version: MPEG 3 Layer III Version 1
creator: Arijit Singh
xmpDM:composer: Music : Anoop Rubens | Lyrics : Vanamali
xmpDM:audioCompressor: MP3
title: Kanulanu Thaake
samplerate: 44100
meta:author: Arijit Singh
xmpDM:genre: Soundtrack
Content-Type: audio/mpeg
xmpDM:albumArtist: Manam (2014)
dc:title: Kanulanu Thaake