TIKA - Guide rapide
Qu'est-ce qu'Apache Tika?
Apache Tika est une bibliothèque utilisée pour la détection de type de document et l'extraction de contenu à partir de divers formats de fichiers.
En interne, Tika utilise divers analyseurs de documents et techniques de détection de types de documents existants pour détecter et extraire les données.
En utilisant Tika, on peut développer un détecteur de type universel et un extracteur de contenu pour extraire à la fois du texte structuré et des métadonnées de différents types de documents tels que des feuilles de calcul, des documents texte, des images, des PDF et même des formats d'entrée multimédia dans une certaine mesure.
Tika fournit une API générique unique pour analyser différents formats de fichiers. Il utilise des bibliothèques d'analyseurs spécialisées existantes pour chaque type de document.
Toutes ces bibliothèques d'analyseurs sont encapsulées sous une seule interface appelée Parser interface.
Pourquoi Tika?
Selon filext.com, il existe environ 15 000 à 51 000 types de contenu, et ce nombre augmente de jour en jour. Les données sont stockées dans divers formats tels que des documents texte, une feuille de calcul Excel, des fichiers PDF, des images et des fichiers multimédias, pour n'en nommer que quelques-uns. Par conséquent, les applications telles que les moteurs de recherche et les systèmes de gestion de contenu ont besoin d'un support supplémentaire pour une extraction facile des données à partir de ces types de documents. Apache Tika sert cet objectif en fournissant une API générique pour localiser et extraire des données à partir de plusieurs formats de fichiers.
Applications Apache Tika
Il existe diverses applications qui utilisent Apache Tika. Ici, nous allons discuter de quelques applications importantes qui dépendent fortement d'Apache Tika.
Moteurs de recherche
Tika est largement utilisé lors du développement de moteurs de recherche pour indexer le contenu textuel des documents numériques.
Les moteurs de recherche sont des systèmes de traitement de l'information conçus pour rechercher des informations et des documents indexés sur le Web.
Le robot d'exploration est un composant important d'un moteur de recherche qui parcourt le Web pour récupérer les documents à indexer à l'aide d'une technique d'indexation. Ensuite, le robot transfère ces documents indexés vers un composant d'extraction.
Le devoir du composant d'extraction est d'extraire le texte et les métadonnées du document. Ces contenus et métadonnées extraits sont très utiles pour un moteur de recherche. Ce composant d'extraction contient Tika.
Le contenu extrait est ensuite transmis à l'indexeur du moteur de recherche qui l'utilise pour créer un index de recherche. En dehors de cela, le moteur de recherche utilise également le contenu extrait de nombreuses autres manières.
Analyse documentaire
Dans le domaine de l'intelligence artificielle, il existe certains outils pour analyser automatiquement les documents au niveau sémantique et en extraire toutes sortes de données.
Dans de telles applications, les documents sont classés en fonction des termes importants dans le contenu extrait du document.
Ces outils utilisent Tika pour l'extraction de contenu afin d'analyser des documents allant du texte brut aux documents numériques.
Gestion des actifs numériques
Certaines organisations gèrent leurs actifs numériques tels que des photographies, des livres électroniques, des dessins, de la musique et des vidéos à l'aide d'une application spéciale appelée gestion des actifs numériques (DAM).
De telles applications utilisent des détecteurs de type de document et un extracteur de métadonnées pour classer les différents documents.
Analyse de contenu
Des sites Web comme Amazon recommandent le contenu nouvellement publié de leur site Web aux utilisateurs individuels en fonction de leurs intérêts. Pour ce faire, ces sites Web suiventmachine learning techniques, ou prenez l'aide de sites Web de médias sociaux comme Facebook pour extraire les informations requises telles que les goûts et les intérêts des utilisateurs. Ces informations rassemblées se présenteront sous la forme de balises html ou d'autres formats nécessitant une détection et une extraction supplémentaires du type de contenu.
Pour l'analyse du contenu d'un document, nous disposons de technologies qui implémentent des techniques d'apprentissage automatique telles que UIMA et Mahout. Ces technologies sont utiles pour regrouper et analyser les données des documents.
Apache Mahoutest un framework qui fournit des algorithmes ML sur Apache Hadoop - une plateforme de cloud computing. Mahout fournit une architecture en suivant certaines techniques de clustering et de filtrage. En suivant cette architecture, les programmeurs peuvent écrire leurs propres algorithmes ML pour produire des recommandations en prenant diverses combinaisons de texte et de métadonnées. Pour fournir des entrées à ces algorithmes, les versions récentes de Mahout utilisent Tika pour extraire du texte et des métadonnées à partir de contenu binaire.
Apache UIMAanalyse et traite divers langages de programmation et produit des annotations UIMA. En interne, il utilise Tika Annotator pour extraire le texte et les métadonnées du document.
L'histoire
An | Développement |
---|---|
2006 | L'idée de Tika a été projetée devant le comité de gestion du projet Lucene. |
2006 | Le concept de Tika et son utilité dans le projet Jackrabbit ont été discutés. |
2007 | Tika est entré dans l'incubateur Apache. |
2008 | Les versions 0.1 et 0.2 ont été publiées et Tika est passée de l'incubateur au sous-projet Lucene. |
2009 | Les versions 0.3, 0.4 et 0.5 ont été publiées. |
2010 | Les versions 0.6 et 0.7 ont été publiées et Tika a obtenu son diplôme dans le projet Apache de haut niveau. |
2011 | Tika 1.0 est sorti et le livre sur Tika "Tika in Action" est également sorti la même année. |
Architecture au niveau de l'application de Tika
Les programmeurs d'applications peuvent facilement intégrer Tika dans leurs applications. Tika fournit une interface de ligne de commande et une interface graphique pour le rendre convivial.
Dans ce chapitre, nous aborderons les quatre modules importants qui constituent l'architecture Tika. L'illustration suivante montre l'architecture de Tika avec ses quatre modules -
- Mécanisme de détection de la langue.
- Mécanisme de détection MIME.
- Interface d'analyseur.
- Classe de façade Tika.
Mécanisme de détection de la langue
Chaque fois qu'un document texte est transmis à Tika, il détecte la langue dans laquelle il a été écrit. Il accepte les documents sans annotation de langue et ajoute ces informations dans les métadonnées du document en détectant la langue.
Pour prendre en charge l'identification de la langue, Tika a une classe appelée Language Identifier dans le paquet org.apache.tika.language, et un référentiel d'identification de langue à l'intérieur qui contient des algorithmes pour la détection de langue à partir d'un texte donné. Tika utilise en interne l'algorithme N-gram pour la détection de la langue.
Mécanisme de détection MIME
Tika peut détecter le type de document selon les normes MIME. La détection du type MIME par défaut dans Tika est effectuée à l'aide de org.apache.tika.mime.mimeTypes . Il utilise l' interface org.apache.tika.detect.Detector pour la plupart des détections de type de contenu.
En interne, Tika utilise plusieurs techniques telles que les globes de fichiers, les indices de type de contenu, les octets magiques, les encodages de caractères et plusieurs autres techniques.
Interface d'analyseur
L'interface analyseur de org.apache.tika.parser est l'interface clé pour l'analyse des documents dans Tika. Cette interface extrait le texte et les métadonnées d'un document et les résume pour les utilisateurs externes souhaitant écrire des plugins d'analyseurs.
En utilisant différentes classes d'analyseurs concrètes, spécifiques aux types de documents individuels, Tika prend en charge de nombreux formats de documents. Ces classes spécifiques au format prennent en charge différents formats de document, soit en implémentant directement la logique de l'analyseur, soit en utilisant des bibliothèques d'analyseurs externes.
Classe de façade Tika
L'utilisation de la classe de façade Tika est la manière la plus simple et directe d'appeler Tika depuis Java, et elle suit le modèle de conception de façade. Vous pouvez trouver la classe de façade Tika dans le package org.apache.tika de l'API Tika.
En mettant en œuvre des cas d'utilisation de base, Tika agit comme un courtier de paysage. Il résume la complexité sous-jacente de la bibliothèque Tika telle que le mécanisme de détection MIME, l'interface parseur et le mécanisme de détection de la langue, et fournit aux utilisateurs une interface simple à utiliser.
Caractéristiques de Tika
Unified parser Interface- Tika encapsule toutes les bibliothèques d'analyseurs tiers dans une seule interface d'analyseur. Grâce à cette fonctionnalité, l'utilisateur échappe à la charge de sélectionner la bibliothèque d'analyseur appropriée et l'utilise en fonction du type de fichier rencontré.
Low memory usage- Tika consomme moins de ressources mémoire et est donc facilement intégrable avec les applications Java. Nous pouvons également utiliser Tika dans l'application qui fonctionne sur des plates-formes avec moins de ressources comme les PDA mobiles.
Fast processing - Une détection et une extraction rapides du contenu des applications peuvent être attendues.
Flexible metadata - Tika comprend tous les modèles de métadonnées qui sont utilisés pour décrire les fichiers.
Parser integration - Tika peut utiliser différentes bibliothèques d'analyseurs disponibles pour chaque type de document dans une seule application.
MIME type detection - Tika peut détecter et extraire le contenu de tous les types de médias inclus dans les normes MIME.
Language detection - Tika comprend une fonction d'identification de la langue, peut donc être utilisé dans des documents basés sur le type de langue dans un site Web multilingue.
Fonctionnalités de Tika
Tika prend en charge diverses fonctionnalités -
- Détection du type de document
- Extraction de contenu
- Extraction de métadonnées
- Détection de la langue
Détection du type de document
Tika utilise diverses techniques de détection et détecte le type de document qui lui est donné.
Extraction de contenu
Tika a une bibliothèque d'analyseurs qui peut analyser le contenu de divers formats de documents et les extraire. Après avoir détecté le type du document, il sélectionne l'analyseur approprié dans le référentiel de l'analyseur et transmet le document. Différentes classes de Tika ont des méthodes pour analyser différents formats de documents.
Extraction de métadonnées
En plus du contenu, Tika extrait les métadonnées du document avec la même procédure que dans l'extraction de contenu. Pour certains types de documents, Tika a des classes pour extraire les métadonnées.
Détection de la langue
En interne, Tika suit des algorithmes comme n-grampour détecter la langue du contenu d'un document donné. Tika dépend de classes commeLanguageidentifier et Profiler pour l'identification de la langue.
Ce chapitre vous guide tout au long du processus de configuration d'Apache Tika sous Windows et Linux. L'administration des utilisateurs est nécessaire lors de l'installation d'Apache Tika.
Configuration requise
JDK | Java SE 2 JDK 1.6 ou supérieur |
Mémoire | 1 Go de RAM (recommandé) |
Espace disque | Aucune exigence minimale |
Version du système d'exploitation | Windows XP ou supérieur, Linux |
Étape 1: vérification de l'installation de Java
Pour vérifier l'installation de Java, ouvrez la console et exécutez ce qui suit java commander.
OS | Tâche | Commander |
---|---|---|
les fenêtres | Ouvrir la console de commande | \> java –version |
Linux | Ouvrir le terminal de commande | $ java –version |
Si Java a été correctement installé sur votre système, vous devriez obtenir l'une des sorties suivantes, en fonction de la plate-forme sur laquelle vous travaillez.
OS | Production |
---|---|
les fenêtres | Version Java "1.7.0_60"
Environnement d'exécution Java (TM) SE (build 1.7.0_60-b19) VM serveur 64 bits Java Hotspot (TM) (build 24.60-b09, mode mixte) |
Lunix | version java "1.7.0_25" Ouvrir l'environnement d'exécution JDK (rhel-2.3.10.4.el6_4-x86_64) Ouvrez la machine virtuelle serveur JDK 64 bits (build 23.7-b01, mode mixte) |
Nous supposons que les lecteurs de ce didacticiel ont installé Java 1.7.0_60 sur leur système avant de poursuivre ce didacticiel.
Si vous ne disposez pas du SDK Java, téléchargez sa version actuelle sur https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.
Étape 2: Configuration de l'environnement Java
Définissez la variable d'environnement JAVA_HOME pour qu'elle pointe vers l'emplacement du répertoire de base où Java est installé sur votre machine. Par exemple,
OS | Production |
---|---|
les fenêtres | Définissez la variable d'environnement JAVA_HOME sur C: \ ProgramFiles \ java \ jdk1.7.0_60 |
Linux | export JAVA_HOME = / usr / local / java-current |
Ajoutez le chemin complet de l'emplacement du compilateur Java au chemin système.
OS | Production |
---|---|
les fenêtres | Ajoutez la chaîne; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin à la fin de la variable système PATH. |
Linux | export PATH = $ PATH: $ JAVA_HOME / bin / |
Vérifiez la commande java-version à partir de l'invite de commande comme expliqué ci-dessus.
Étape 3: Configuration de l'environnement Apache Tika
Les programmeurs peuvent intégrer Apache Tika dans leur environnement en utilisant
- Ligne de commande,
- API Tika,
- Interface de ligne de commande (CLI) de Tika,
- Interface utilisateur graphique (GUI) de Tika, ou
- le code source.
Pour l'une de ces approches, tout d'abord, vous devez télécharger le code source de Tika.
Vous trouverez le code source de Tika sur https://Tika.apache.org/download.html, où vous trouverez deux liens -
apache-tika-1.6-src.zip - Il contient le code source de Tika, et
Tika -app-1.6.jar - C'est un fichier jar qui contient l'application Tika.
Téléchargez ces deux fichiers. Un aperçu du site officiel de Tika est présenté ci-dessous.
Après avoir téléchargé les fichiers, définissez le chemin d'accès aux classes pour le fichier jar tika-app-1.6.jar. Ajoutez le chemin complet du fichier jar comme indiqué dans le tableau ci-dessous.
OS | Production |
---|---|
les fenêtres | Ajoutez la chaîne «C: \ jars \ Tika-app-1.6.jar» à la variable d'environnement utilisateur CLASSPATH |
Linux | Exporter CLASSPATH = $ CLASSPATH - /usr/share/jars/Tika-app-1.6.tar - |
Apache fournit l'application Tika, une application d'interface utilisateur graphique (GUI) utilisant Eclipse.
Construire Tika-Maven avec Eclipse
Ouvrez eclipse et créez un nouveau projet.
Si vous n'avez pas Maven dans votre Eclipse, configurez-le en suivant les étapes indiquées.
Ouvrez le lien https://wiki.eclipse.org/M2E_updatesite_and_gittags . Vous y trouverez les versions du plugin m2e dans un format tabulaire
Choisissez la dernière version et enregistrez le chemin de l'url dans la colonne url p2.
Maintenant, revisitez eclipse, dans la barre de menu, cliquez sur Help, et choisissez Install New Software dans le menu déroulant
Clique le Add, tapez le nom souhaité, car il est facultatif. Collez maintenant l'URL enregistrée dans leLocation champ.
Un nouveau plugin sera ajouté avec le nom que vous avez choisi à l'étape précédente, cochez la case en face de lui, et cliquez sur Next.
Poursuivez l'installation. Une fois terminé, redémarrez l'Eclipse.
Maintenant, faites un clic droit sur le projet, et dans le configure option, sélectionnez convert to maven project.
Un nouvel assistant de création d'un nouveau pom apparaît. Entrez l'ID du groupe comme org.apache.tika, entrez la dernière version de Tika, sélectionnez lepackaging comme pot, et cliquez sur Finish.
Le projet Maven est installé avec succès et votre projet est converti en Maven. Vous devez maintenant configurer le fichier pom.xml.
Configurer le fichier XML
Obtenez la dépendance Tika Maven dehttps://mvnrepository.com/artifact/org.apache.tika
Vous trouverez ci-dessous la dépendance Maven complète d'Apache Tika.
<dependency>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-core</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
<artifactId> Tika-parsers</artifactId>
<version> 1.6</version>
<groupId> org.apache.Tika</groupId>
<artifactId>Tika</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
< artifactId>Tika-serialization</artifactId>
< version>1.6< /version>
< groupId>org.apache.Tika< /groupId>
< artifactId>Tika-app< /artifactId>
< version>1.6< /version>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-bundle</artifactId>
<version>1.6</version>
</dependency>
Les utilisateurs peuvent intégrer Tika dans leurs applications à l'aide de la classe de façade Tika. Il dispose de méthodes pour explorer toutes les fonctionnalités de Tika. Puisqu'il s'agit d'une classe de façade, Tika fait abstraction de la complexité derrière ses fonctions. En plus de cela, les utilisateurs peuvent également utiliser les différentes classes de Tika dans leurs applications.
Classe Tika (façade)
C'est la classe la plus importante de la bibliothèque Tika et suit le modèle de conception de la façade. Par conséquent, il fait abstraction de toutes les implémentations internes et fournit des méthodes simples pour accéder aux fonctionnalités de Tika. Le tableau suivant répertorie les constructeurs de cette classe avec leurs descriptions.
package - org.apache.tika
class - Tika
Sr.No. | Constructeur et description |
---|---|
1 | Tika () Utilise la configuration par défaut et construit la classe Tika. |
2 | Tika (Detector detector) Crée une façade Tika en acceptant l'instance de détecteur comme paramètre |
3 | Tika (Detector detector, Parser parser) Crée une façade Tika en acceptant les instances de détecteur et d'analyseur comme paramètres. |
4 | Tika (Detector detector, Parser parser, Translator translator) Crée une façade Tika en acceptant le détecteur, l'analyseur et l'instance du traducteur comme paramètres. |
5 | Tika (TikaConfig config) Crée une façade Tika en acceptant l'objet de la classe TikaConfig comme paramètre. |
Méthodes et description
Voici les méthodes importantes de la classe de façade Tika -
Sr.No. | Méthodes et description |
---|---|
1 | analyserToString (File fichier) Cette méthode et toutes ses variantes analyse le fichier passé en paramètre et renvoie le contenu du texte extrait au format String. Par défaut, la longueur de ce paramètre de chaîne est limitée. |
2 | int getMaxStringLength () Renvoie la longueur maximale des chaînes renvoyées par les méthodes parseToString. |
3 | néant setMaxStringLength (int maxStringLength) Définit la longueur maximale des chaînes renvoyées par les méthodes parseToString. |
4 | Lecteur parse (File fichier) Cette méthode et toutes ses variantes analyse le fichier passé en paramètre et renvoie le contenu du texte extrait sous la forme de l'objet java.io.reader. |
5 | Chaîne detect (InputStream courant, Metadata métadonnées) Cette méthode et toutes ses variantes acceptent un objet InputStream et un objet Metadata comme paramètres, détecte le type du document donné et retourne le nom du type de document en tant qu'objet String. Cette méthode fait abstraction des mécanismes de détection utilisés par Tika. |
6 | Chaîne translate (InputStream texte, String langue cible) Cette méthode et toutes ses variantes acceptent l'objet InputStream et une chaîne représentant la langue dans laquelle nous voulons que notre texte soit traduit, et traduit le texte donné dans la langue souhaitée, en essayant de détecter automatiquement la langue source. |
Interface d'analyseur
C'est l'interface qui est implémentée par toutes les classes d'analyseurs du package Tika.
package - org.apache.tika.parser
Interface - Analyseur
Méthodes et description
Voici la méthode importante de l'interface Tika Parser -
Sr.No. | Méthodes et description |
---|---|
1 | parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) Cette méthode analyse le document donné en une séquence d'événements XHTML et SAX. Après l'analyse, il place le contenu du document extrait dans l'objet de la classe ContentHandler et les métadonnées dans l'objet de la classe Metadata. |
Classe de métadonnées
Cette classe implémente diverses interfaces telles que CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable pour prendre en charge divers modèles de données. Les tableaux suivants répertorient les constructeurs et les méthodes de cette classe avec leurs descriptions.
package - org.apache.tika.metadata
class - Métadonnées
Sr.No. | Constructeur et description |
---|---|
1 | Metadata() Construit une nouvelle métadonnée vide. |
Sr.No. | Méthodes et description |
---|---|
1 | add (Property property, String value) Ajoute un mappage propriété / valeur de métadonnées à un document donné. En utilisant cette fonction, nous pouvons définir la valeur sur une propriété. |
2 | add (String name, String value) Ajoute un mappage propriété / valeur de métadonnées à un document donné. En utilisant cette méthode, nous pouvons définir une nouvelle valeur de nom sur les métadonnées existantes d'un document. |
3 | String get (Property property) Renvoie la valeur (le cas échéant) de la propriété de métadonnées donnée. |
4 | String get (String name) Renvoie la valeur (le cas échéant) du nom de métadonnées donné. |
5 | Date getDate (Property property) Renvoie la valeur de la propriété de métadonnées Date. |
6 | String[] getValues (Property property) Renvoie toutes les valeurs d'une propriété de métadonnées. |
sept | String[] getValues (String name) Renvoie toutes les valeurs d'un nom de métadonnées donné. |
8 | String[] names() Renvoie tous les noms des éléments de métadonnées dans un objet de métadonnées. |
9 | set (Property property, Date date) Définit la valeur de date de la propriété de métadonnées donnée |
dix | set(Property property, String[] values) Définit plusieurs valeurs sur une propriété de métadonnées. |
Classe d'identifiant de langue
Cette classe identifie la langue du contenu donné. Les tableaux suivants répertorient les constructeurs de cette classe avec leurs descriptions.
package - org.apache.tika.language
class - Identificateur de langue
Sr.No. | Constructeur et description |
---|---|
1 | LanguageIdentifier (LanguageProfile profile) Instancie l'identifiant de langue. Ici, vous devez passer un objet LanguageProfile comme paramètre. |
2 | LanguageIdentifier (String content) Ce constructeur peut instancier un identificateur de langue en passant une chaîne à partir du contenu textuel. |
Sr.No. | Méthodes et description |
---|---|
1 | String getLanguage () Renvoie la langue donnée à l'objet LanguageIdentifier actuel. |
Formats de fichiers pris en charge par Tika
Le tableau suivant présente les formats de fichiers pris en charge par Tika.
Format de fichier | Bibliothèque de packages | Cours à Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html et utilise la bibliothèque Tagsoup | HtmlParser |
Document composé MS-Office Ole2 jusqu'en 2007 ooxml à partir de 2007 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml et utilise la bibliothèque Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
OpenOffice au format OpenDocument | org.apache.tika.parser.odf | OpenOfficeParser |
Format de document portable (PDF) | org.apache.tika.parser.pdf et ce package utilise la bibliothèque Apache PdfBox | PDFParser |
Format de publication électronique (livres numériques) | org.apache.tika.parser.epub | EpubParser |
Format de texte enrichi | org.apache.tika.parser.rtf | RTFParser |
Formats de compression et d'emballage | org.apache.tika.parser.pkg et ce package utilise la bibliothèque de compression commune | PackageParser et CompressorParser et ses sous-classes |
Format de texte | org.apache.tika.parser.txt | TXTParser |
Formats d'alimentation et de syndication | org.apache.tika.parser.feed | FeedParser |
Formats audio | org.apache.tika.parser.audio et org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- pour mp3parser |
Analyseurs d'images | org.apache.tika.parser.jpeg | JpegParser-pour les images jpeg |
Vidéoformats | org.apache.tika.parser.mp4 et org.apache.tika.parser.video cet analyseur utilise en interne un algorithme simple pour analyser les formats vidéo flash | Mp4parser FlvParser |
fichiers de classe java et fichiers jar | org.apache.tika.parser.asm | ClasseParser CompressorParser |
Mobxformat (messages électroniques) | org.apache.tika.parser.mbox | MobXParser |
Formats CAO | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
programmes exécutables et bibliothèques | org.apache.tika.parser.executable | ExécutableParser |
Normes MIME
Les normes MIME (Multipurpose Internet Mail Extensions) sont les meilleures normes disponibles pour l'identification des types de documents. La connaissance de ces normes aide le navigateur lors des interactions internes.
Chaque fois que le navigateur rencontre un fichier multimédia, il choisit un logiciel compatible disponible avec lui pour afficher son contenu. Dans le cas où il ne dispose d'aucune application appropriée pour exécuter un fichier multimédia particulier, il recommande à l'utilisateur de se procurer le logiciel de plug-in approprié.
Détection de type dans Tika
Tika prend en charge tous les types de documents multimédias Internet fournis dans MIME. Chaque fois qu'un fichier passe par Tika, il détecte le fichier et son type de document. Pour détecter les types de média, Tika utilise en interne les mécanismes suivants.
Extensions de fichiers
La vérification des extensions de fichier est la méthode la plus simple et la plus utilisée pour détecter le format d'un fichier. De nombreuses applications et systèmes d'exploitation prennent en charge ces extensions. Vous trouverez ci-dessous l'extension de quelques types de fichiers connus.
Nom de fichier | Prolongation |
---|---|
image | .jpg |
l'audio | .mp3 |
fichier d'archive java | .pot |
fichier de classe java | .classe |
Conseils de type de contenu
Chaque fois que vous récupérez un fichier d'une base de données ou que vous le joignez à un autre document, vous risquez de perdre le nom ou l'extension du fichier. Dans de tels cas, les métadonnées fournies avec le fichier sont utilisées pour détecter l'extension du fichier.
Octet magique
En observant les octets bruts d'un fichier, vous pouvez trouver des modèles de caractères uniques pour chaque fichier. Certains fichiers ont des préfixes d'octets spéciaux appelésmagic bytes spécialement conçus et inclus dans un fichier dans le but d'identifier le type de fichier
Par exemple, vous pouvez trouver CA FE BA BE (format hexadécimal) dans un fichier java et% PDF (format ASCII) dans un fichier pdf. Tika utilise ces informations pour identifier le type de média d'un fichier.
Codages de caractères
Les fichiers contenant du texte brut sont codés à l'aide de différents types de codage de caractères. Le principal défi ici est d'identifier le type de codage de caractères utilisé dans les fichiers. Tika suit des techniques d'encodage de caractères commeBom markers et Byte Frequencies pour identifier le système de codage utilisé par le contenu en texte brut.
Caractères racine XML
Pour détecter les documents XML, Tika analyse les documents xml et extrait les informations telles que les éléments racine, les espaces de noms et les schémas référencés à partir desquels le véritable type de média des fichiers peut être trouvé.
Détection de type à l'aide de la classe de façade
le detect()La méthode de classe de façade est utilisée pour détecter le type de document. Cette méthode accepte un fichier en entrée. Vous trouverez ci-dessous un exemple de programme de détection de type de document avec la classe de façade Tika.
import java.io.File;
import org.apache.tika.Tika;
public class Typedetection {
public static void main(String[] args) throws Exception {
//assume example.mp3 is in your current directory
File file = new File("example.mp3");//
//Instantiating tika facade class
Tika tika = new Tika();
//detecting the file type using detect method
String filetype = tika.detect(file);
System.out.println(filetype);
}
}
Enregistrez le code ci-dessus sous TypeDetection.java et exécutez-le à partir de l'invite de commande à l'aide des commandes suivantes -
javac TypeDetection.java
java TypeDetection
audio/mpeg
Tika utilise diverses bibliothèques d'analyseurs pour extraire le contenu d'analyseurs donnés. Il choisit le bon analyseur pour extraire le type de document donné.
Pour l'analyse des documents, la méthode parseToString () de la classe de façade Tika est généralement utilisée. Vous trouverez ci-dessous les étapes impliquées dans le processus d'analyse et celles-ci sont résumées par la méthode Tika ParsertoString ().
Résumé du processus d'analyse -
Au départ, lorsque nous transmettons un document à Tika, il utilise un mécanisme de détection de type approprié disponible avec celui-ci et détecte le type de document.
Une fois que le type de document est connu, il choisit un analyseur approprié dans son référentiel d'analyseurs. Le référentiel de l'analyseur contient des classes qui utilisent des bibliothèques externes.
Ensuite, le document est passé pour choisir l'analyseur qui analysera le contenu, extraira le texte et lancera également des exceptions pour les formats illisibles.
Extraction de contenu à l'aide de Tika
Vous trouverez ci-dessous le programme d'extraction de texte d'un fichier à l'aide de la classe de façade Tika -
import java.io.File;
import java.io.IOException;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.xml.sax.SAXException;
public class TikaExtraction {
public static void main(final String[] args) throws IOException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//Instantiating Tika facade class
Tika tika = new Tika();
String filecontent = tika.parseToString(file);
System.out.println("Extracted Content: " + filecontent);
}
}
Enregistrez le code ci-dessus sous TikaExtraction.java et exécutez-le à partir de l'invite de commande -
javac TikaExtraction.java
java TikaExtraction
Ci-dessous, le contenu de sample.txt.
Hi students welcome to tutorialspoint
Il vous donne la sortie suivante -
Extracted Content: Hi students welcome to tutorialspoint
Extraction de contenu à l'aide de l'interface d'analyseur
Le package parser de Tika fournit plusieurs interfaces et classes à l'aide desquelles nous pouvons analyser un document texte. Vous trouverez ci-dessous le schéma de principe duorg.apache.tika.parser paquet.
Il existe plusieurs classes d'analyseurs disponibles, par exemple, l'analyseur pdf, Mp3Passer, OfficeParser, etc., pour analyser les documents respectifs individuellement. Toutes ces classes implémentent l'interface de l'analyseur.
CompositeParser
Le diagramme donné montre les classes d'analyseurs polyvalentes de Tika: CompositeParser et AutoDetectParser. Étant donné que la classe CompositeParser suit le modèle de conception composite, vous pouvez utiliser un groupe d'instances d'analyseur en tant qu'analyseur unique. La classe CompositeParser permet également d'accéder à toutes les classes qui implémentent l'interface de l'analyseur.
AutoDetectParser
Il s'agit d'une sous-classe de CompositeParser et il fournit une détection de type automatique. En utilisant cette fonctionnalité, AutoDetectParser envoie automatiquement les documents entrants aux classes d'analyseur appropriées à l'aide de la méthodologie composite.
méthode parse ()
Avec parseToString (), vous pouvez également utiliser la méthode parse () de l'interface parser. Le prototype de cette méthode est présenté ci-dessous.
parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)
Le tableau suivant répertorie les quatre objets qu'il accepte comme paramètres.
Sr.No. | Objet et description |
---|---|
1 | InputStream stream Tout objet Inputstream contenant le contenu du fichier |
2 | ContentHandler handler Tika transmet le document en tant que contenu XHTML à ce gestionnaire, après quoi le document est traité à l'aide de SAX API. Il permet un post-traitement efficace du contenu d'un document. |
3 | Metadata metadata L'objet de métadonnées est utilisé à la fois comme source et comme cible des métadonnées du document. |
4 | ParseContext context Cet objet est utilisé dans les cas où l'application cliente souhaite personnaliser le processus d'analyse. |
Exemple
Vous trouverez ci-dessous un exemple qui montre comment la méthode parse () est utilisée.
Step 1 -
Pour utiliser la méthode parse () de l'interface de l'analyseur, instanciez l'une des classes fournissant l'implémentation de cette interface.
Il existe des classes d'analyseurs individuelles telles que PDFParser, OfficeParser, XMLParser, etc. Vous pouvez utiliser n'importe lequel de ces analyseurs de documents individuels. Vous pouvez également utiliser CompositeParser ou AutoDetectParser qui utilise toutes les classes d'analyseur en interne et extrait le contenu d'un document à l'aide d'un analyseur approprié.
Parser parser = new AutoDetectParser();
(or)
Parser parser = new CompositeParser();
(or)
object of any individual parsers given in Tika Library
Step 2 -
Créez un objet de classe de gestionnaire. Vous trouverez ci-dessous les trois gestionnaires de contenu -
Sr.No. | Classe et description |
---|---|
1 | BodyContentHandler Cette classe sélectionne la partie corps de la sortie XHTML et écrit ce contenu dans l'enregistreur de sortie ou le flux de sortie. Ensuite, il redirige le contenu XHTML vers une autre instance de gestionnaire de contenu. |
2 | LinkContentHandler Cette classe détecte et sélectionne toutes les balises H-Ref du document XHTML et les transmet pour l'utilisation d'outils tels que les robots d'exploration Web. |
3 | TeeContentHandler Cette classe aide à utiliser plusieurs outils simultanément. |
Puisque notre objectif est d'extraire le contenu du texte d'un document, instanciez BodyContentHandler comme indiqué ci-dessous -
BodyContentHandler handler = new BodyContentHandler( );
Step 3 -
Créez l'objet Metadata comme indiqué ci-dessous -
Metadata metadata = new Metadata();
Step 4 -
Créez l'un des objets de flux d'entrée et transmettez-lui votre fichier qui doit être extrait.
FileInputstream
Instanciez un objet fichier en passant le chemin du fichier en tant que paramètre et transmettez cet objet au constructeur de classe FileInputStream.
Note - Le chemin transmis à l'objet fichier ne doit pas contenir d'espaces.
Le problème avec ces classes de flux d'entrée est qu'elles ne prennent pas en charge les lectures à accès aléatoire, ce qui est nécessaire pour traiter efficacement certains formats de fichiers. Pour résoudre ce problème, Tika fournit TikaInputStream.
File file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
(or)
InputStream stream = TikaInputStream.get(new File(filename));
Step 5 -
Créez un objet de contexte d'analyse comme indiqué ci-dessous -
ParseContext context =new ParseContext();
Step 6 -
Instanciez l'objet parser, appelez la méthode parse et transmettez tous les objets requis, comme indiqué dans le prototype ci-dessous -
parser.parse(inputstream, handler, metadata, context);
Vous trouverez ci-dessous le programme d'extraction de contenu à l'aide de l'interface parseur -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class ParserExtraction {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//parse method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the file
parser.parse(inputstream, handler, metadata, context);
System.out.println("File content : " + Handler.toString());
}
}
Enregistrez le code ci-dessus sous ParserExtraction.java et exécutez-le à partir de l'invite de commande -
javac ParserExtraction.java
java ParserExtraction
Ci-dessous, le contenu de sample.txt
Hi students welcome to tutorialspoint
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -
File content : Hi students welcome to tutorialspoint
Outre le contenu, Tika extrait également les métadonnées d'un fichier. Les métadonnées ne sont rien d'autre que les informations supplémentaires fournies avec un fichier. Si l'on considère un fichier audio, le nom de l'artiste, le nom de l'album, le titre font partie des métadonnées.
Normes XMP
La plate-forme de métadonnées extensible (XMP) est une norme pour le traitement et le stockage des informations liées au contenu d'un fichier. Il a été créé par Adobe Systems Inc . XMP fournit des normes pour la définition, la création et le traitement des métadonnées . Vous pouvez intégrer cette norme dans plusieurs formats de fichiers tels que PDF , JPEG , JPEG , GIF , jpg , HTML, etc.
Classe de propriété
Tika utilise la classe Property pour suivre la définition de propriété XMP. Il fournit les énumérations PropertyType et ValueType pour capturer le nom et la valeur d'une métadonnée.
Classe de métadonnées
Cette classe implémente diverses interfaces telles que ClimateForcast , CativeCommons, Geographic , TIFF, etc. pour prendre en charge divers modèles de métadonnées. De plus, cette classe fournit diverses méthodes pour extraire le contenu d'un fichier.
Noms des métadonnées
Nous pouvons extraire la liste de tous les noms de métadonnées d'un fichier à partir de son objet de métadonnées en utilisant la méthode names () . Il renvoie tous les noms sous forme de tableau de chaînes. En utilisant le nom des métadonnées, nous pouvons obtenir la valeur en utilisant leget()méthode. Il prend un nom de métadonnées et renvoie une valeur qui lui est associée.
String[] metadaNames = metadata.names();
String value = metadata.get(name);
Extraction de métadonnées à l'aide de la méthode Parse
Chaque fois que nous analysons un fichier à l'aide de parse (), nous passons un objet de métadonnées vide comme l'un des paramètres. Cette méthode extrait les métadonnées du fichier donné (si ce fichier en contient) et les place dans l'objet de métadonnées. Par conséquent, après avoir analysé le fichier à l'aide de parse (), nous pouvons extraire les métadonnées de cet objet.
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata(); //empty metadata object
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();
Vous trouverez ci-dessous le programme complet pour extraire les métadonnées d'un fichier texte.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class GetMetadata {
public static void main(final String[] args) throws IOException, TikaException {
//Assume that boy.jpg is in your current directory
File file = new File("boy.jpg");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
System.out.println(handler.toString());
//getting the list of all meta data elements
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous GetMetadata.java et exécutez-le à partir de l'invite de commande à l'aide des commandes suivantes -
javac GetMetadata .java
java GetMetadata
Ci-dessous, un instantané de boy.jpg
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -
X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots
Nous pouvons également obtenir les valeurs de métadonnées souhaitées.
Ajout de nouvelles valeurs de métadonnées
Nous pouvons ajouter de nouvelles valeurs de métadonnées en utilisant la méthode add () de la classe de métadonnées. Voici la syntaxe de cette méthode. Ici, nous ajoutons le nom de l'auteur.
metadata.add(“author”,”Tutorials point”);
La classe Metadata a des propriétés prédéfinies, y compris les propriétés héritées de classes telles que ClimateForcast , CativeCommons, Geographic , etc., pour prendre en charge divers modèles de données. Vous trouverez ci-dessous l'utilisation du type de données SOFTWARE hérité de l'interface TIFF implémentée par Tika pour suivre les normes de métadonnées XMP pour les formats d'image TIFF.
metadata.add(Metadata.SOFTWARE,"ms paint");
Vous trouverez ci-dessous le programme complet qui montre comment ajouter des valeurs de métadonnées à un fichier donné. Ici, la liste des éléments de métadonnées est affichée dans la sortie afin que vous puissiez observer le changement dans la liste après l'ajout de nouvelles valeurs.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AddMetadata {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//create a file object and assume sample.txt is in your current directory
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the document
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements before adding new elements
System.out.println( " metadata elements :" +Arrays.toString(metadata.names()));
//adding new meta data name value pair
metadata.add("Author","Tutorials Point");
System.out.println(" metadata name value pair is successfully added");
//printing all the meta data elements after adding new elements
System.out.println("Here is the list of all the metadata
elements after adding new elements");
System.out.println( Arrays.toString(metadata.names()));
}
}
Enregistrez le code ci-dessus en tant que classe AddMetadata.java et exécutez-le à partir de l'invite de commande -
javac AddMetadata .java
java AddMetadata
Ci-dessous, le contenu de Example.txt
Hi students welcome to tutorialspoint
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -
metadata elements of the given file :
[Content-Encoding, Content-Type]
enter the number of metadata name value pairs to be added 1
enter metadata1name:
Author enter metadata1value:
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements after adding new elements
[Content-Encoding, Author, Content-Type]
Définition des valeurs des éléments de métadonnées existants
Vous pouvez définir des valeurs pour les éléments de métadonnées existants à l'aide de la méthode set (). La syntaxe de définition de la propriété date à l'aide de la méthode set () est la suivante:
metadata.set(Metadata.DATE, new Date());
Vous pouvez également définir plusieurs valeurs pour les propriétés à l'aide de la méthode set (). La syntaxe de la définition de plusieurs valeurs à la propriété Author à l'aide de la méthode set () est la suivante:
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
Vous trouverez ci-dessous le programme complet démontrant la méthode set ().
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Date;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class SetMetadata {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Create a file object and assume example.txt is in your current directory
File file = new File("example.txt");
//parameters of parse() method
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//Parsing the given file
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements elements
System.out.println( " metadata elements and values of the given file :");
String[] metadataNamesb4 = metadata.names();
for(String name : metadataNamesb4) {
System.out.println(name + ": " + metadata.get(name));
}
//setting date meta data
metadata.set(Metadata.DATE, new Date());
//setting multiple values to author property
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
//printing all the meta data elements with new elements
System.out.println("List of all the metadata elements after adding new elements ");
String[] metadataNamesafter = metadata.names();
for(String name : metadataNamesafter) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous SetMetadata.java et exécutez-le à partir de l'invite de commande -
javac SetMetadata.java
java SetMetadata
Ci-dessous, le contenu de example.txt.
Hi students welcome to tutorialspoint
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante. Dans la sortie, vous pouvez observer les éléments de métadonnées nouvellement ajoutés.
metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements after adding new elements
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin
Content-Type: text/plain; charset = ISO-8859-1
Besoin de détection de la langue
Pour classer les documents en fonction de la langue dans laquelle ils sont écrits sur un site Web multilingue, un outil de détection de la langue est nécessaire. Cet outil doit accepter les documents sans annotation de langue (métadonnées) et ajouter ces informations dans les métadonnées du document en détectant la langue.
Algorithmes de profilage du corpus
Qu'est-ce que Corpus?
Pour détecter la langue d'un document, un profil de langue est construit et comparé au profil des langues connues. L'ensemble de texte de ces langues connues est appelécorpus.
Un corpus est une collection de textes d'une langue écrite qui explique comment la langue est utilisée dans des situations réelles.
Le corpus est développé à partir de livres, de transcriptions et d'autres ressources de données comme Internet. La précision du corpus dépend de l'algorithme de profilage que nous utilisons pour encadrer le corpus.
Que sont les algorithmes de profilage?
La méthode courante de détection des langues consiste à utiliser des dictionnaires. Les mots utilisés dans un morceau de texte donné seront mis en correspondance avec ceux qui sont dans les dictionnaires.
Une liste de mots courants utilisés dans une langue sera le corpus le plus simple et le plus efficace pour détecter une langue particulière, par exemple des articles a, an, the en anglais.
Utilisation d'ensembles de mots comme corpus
En utilisant des ensembles de mots, un algorithme simple est encadré pour trouver la distance entre deux corpus, qui sera égale à la somme des différences entre les fréquences des mots correspondants.
Ces algorithmes souffrent des problèmes suivants -
Étant donné que la fréquence de correspondance des mots est très inférieure, l'algorithme ne peut pas fonctionner efficacement avec de petits textes contenant peu de phrases. Il a besoin de beaucoup de texte pour une correspondance précise.
Il ne peut pas détecter les limites de mots pour les langues ayant des phrases composées et celles n'ayant pas de séparateurs de mots comme les espaces ou les signes de ponctuation.
En raison de ces difficultés d'utilisation des ensembles de mots comme corpus, des caractères individuels ou des groupes de caractères sont pris en compte.
Utilisation des jeux de caractères comme corpus
Comme les caractères couramment utilisés dans une langue sont en nombre fini, il est facile d'appliquer un algorithme basé sur la fréquence des mots plutôt que sur les caractères. Cet algorithme fonctionne encore mieux dans le cas de certains jeux de caractères utilisés dans une ou très peu de langues.
Cet algorithme souffre des inconvénients suivants -
Il est difficile de différencier deux langues ayant des fréquences de caractères similaires.
Il n'y a pas d'outil ou d'algorithme spécifique pour identifier spécifiquement une langue à l'aide (en tant que corpus) du jeu de caractères utilisé par plusieurs langues.
Algorithme N-gramme
Les inconvénients évoqués ci-dessus ont donné lieu à une nouvelle approche d'utilisation de séquences de caractères d'une longueur donnée pour le profilage de corpus. Une telle séquence de caractères est appelée en général N-grammes, où N représente la longueur de la séquence de caractères.
L'algorithme N-gram est une approche efficace pour la détection de la langue, en particulier dans le cas de langues européennes comme l'anglais.
Cet algorithme fonctionne très bien avec des textes courts.
Bien qu'il existe des algorithmes de profilage de langue avancés pour détecter plusieurs langues dans un document multilingue ayant des fonctionnalités plus attrayantes, Tika utilise l'algorithme de 3 grammes, car il convient à la plupart des situations pratiques.
Détection de la langue dans Tika
Parmi les 184 langues standard normalisées par ISO 639-1, Tika peut détecter 18 langues. La détection de la langue dans Tika se fait à l'aide dugetLanguage() méthode de la LanguageIdentifierclasse. Cette méthode renvoie le nom de code de la langue au format String. Ci-dessous, la liste des 18 paires de code langue détectées par Tika -
da: danois | de — allemand | et — Estonien | el — grec |
en — anglais | es: espagnol | fi: finnois | fr — français |
hu: hongrois | is-islandais | it — italien | nl: néerlandais |
non: norvégien | pl: polonais | pt: portugais | ru: russe |
sv: suédois | th — thaï |
Lors de l'instanciation du LanguageIdentifier class, vous devez passer le format String du contenu à extraire, ou un LanguageProfile objet de classe.
LanguageIdentifier object = new LanguageIdentifier(“this is english”);
Vous trouverez ci-dessous l'exemple de programme pour la détection de la langue dans Tika.
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;
import org.xml.sax.SAXException;
public class LanguageDetection {
public static void main(String args[])throws IOException, SAXException, TikaException {
LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
String language = identifier.getLanguage();
System.out.println("Language of the given content is : " + language);
}
}
Enregistrez le code ci-dessus sous LanguageDetection.java et exécutez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac LanguageDetection.java
java LanguageDetection
Si vous exécutez le programme ci-dessus, il donne l'outpu:
Language of the given content is : en
Détection de la langue d'un document
Pour détecter la langue d'un document donné, vous devez l'analyser en utilisant la méthode parse (). La méthode parse () analyse le contenu et le stocke dans l'objet gestionnaire, qui lui a été transmis comme l'un des arguments. Transmettez le format String de l'objet handler au constructeur duLanguageIdentifier classe comme indiqué ci-dessous -
parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
Vous trouverez ci-dessous le programme complet qui montre comment détecter la langue d'un document donné -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;
import org.xml.sax.SAXException;
public class DocumentLanguageDetection {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//Instantiating a file object
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream content = new FileInputStream(file);
//Parsing the given document
parser.parse(content, handler, metadata, new ParseContext());
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
System.out.println("Language name :" + object.getLanguage());
}
}
Enregistrez le code ci-dessus sous SetMetadata.java et exécutez-le à partir de l'invite de commande -
javac SetMetadata.java
java SetMetadata
Ci-dessous, le contenu de Example.txt.
Hi students welcome to tutorialspoint
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -
Language name :en
Avec le jar Tika, Tika fournit une application d'interface utilisateur graphique (GUI) et une application d'interface de ligne de commande (CLI). Vous pouvez également exécuter une application Tika à partir de l'invite de commande, comme d'autres applications Java.
Interface utilisateur graphique (GUI)
Tika fournit un fichier jar avec son code source dans le lien suivant https://tika.apache.org/download.html.
Téléchargez les deux fichiers, définissez le chemin de classe pour le fichier jar.
Extrayez le dossier zip du code source, ouvrez le dossier tika-app.
Dans le dossier extrait à «tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui», vous verrez deux fichiers de classe: ParsingTransferHandler.java et TikaGUI.java.
Compilez les deux fichiers de classe et exécutez le fichier de classe TikaGUI.java, cela ouvre la fenêtre suivante.
Voyons maintenant comment utiliser l'interface graphique de Tika.
Sur l'interface graphique, cliquez sur Ouvrir, parcourez et sélectionnez un fichier à extraire ou faites-le glisser sur l'espace blanc de la fenêtre.
Tika extrait le contenu des fichiers et l'affiche dans cinq formats différents, à savoir. métadonnées, texte formaté, texte brut, contenu principal et texte structuré. Vous pouvez choisir n'importe quel format de votre choix.
De la même manière, vous trouverez également la classe CLI dans le dossier «tika-1.6 \ tikaapp \ src \ main \ java \ org \ apache \ tika \ cli».
L'illustration suivante montre ce que Tika peut faire. Lorsque nous déposons l'image sur l'interface graphique, Tika extrait et affiche ses métadonnées.
Ci-dessous est le programme pour extraire le contenu et les métadonnées d'un PDF.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class PdfParse {
public static void main(final String[] args) throws IOException,TikaException {
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
ParseContext pcontext = new ParseContext();
//parsing the document using PDF parser
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata,pcontext);
//getting the content of the document
System.out.println("Contents of the PDF :" + handler.toString());
//getting metadata of the document
System.out.println("Metadata of the PDF:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name+ " : " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous PdfParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac PdfParse.java
java PdfParse
Ci-dessous, un aperçu de example.pdf
Le PDF que nous transmettons a les propriétés suivantes -
Après avoir compilé le programme, vous obtiendrez la sortie comme indiqué ci-dessous.
Output -
Contents of the PDF:
Apache Tika is a framework for content type detection and content extraction
which was designed by Apache software foundation. It detects and extracts metadata
and structured text content from different types of documents such as spreadsheets,
text documents, images or PDFs including audio or video input formats to certain extent.
Metadata of the PDF:
dcterms:modified : 2014-09-28T12:31:16Z
meta:creation-date : 2014-09-28T12:31:16Z
meta:save-date : 2014-09-28T12:31:16Z
dc:creator : Krishna Kasyap
pdf:PDFVersion : 1.5
Last-Modified : 2014-09-28T12:31:16Z
Author : Krishna Kasyap
dcterms:created : 2014-09-28T12:31:16Z
date : 2014-09-28T12:31:16Z
modified : 2014-09-28T12:31:16Z
creator : Krishna Kasyap
xmpTPg:NPages : 1
Creation-Date : 2014-09-28T12:31:16Z
pdf:encrypted : false
meta:author : Krishna Kasyap
created : Sun Sep 28 05:31:16 PDT 2014
dc:format : application/pdf; version = 1.5
producer : Microsoft® Word 2013
Content-Type : application/pdf
xmp:CreatorTool : Microsoft® Word 2013
Last-Save-Date : 2014-09-28T12:31:16Z
Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées du format de document Open Office (ODF).
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.odf.OpenDocumentParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class OpenDocumentParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example_open_document_presentation.odp"));
ParseContext pcontext = new ParseContext();
//Open Document Parser
OpenDocumentParser openofficeparser = new OpenDocumentParser ();
openofficeparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous OpenDocumentParse.javaet compilez-le dans l'invite de commande à l'aide des commandes suivantes -
javac OpenDocumentParse.java
java OpenDocumentParse
Ci-dessous, un instantané du fichier example_open_document_presentation.odp.
Ce document a les propriétés suivantes -
Après avoir compilé le programme, vous obtiendrez la sortie suivante.
Output -
Contents of the document:
Apache Tika
Apache Tika is a framework for content type detection and content extraction which was designed
by Apache software foundation. It detects and extracts metadata and structured text content from
different types of documents such as spreadsheets, text documents, images or PDFs including audio
or video input formats to certain extent.
Metadata of the document:
editing-cycles: 4
meta:creation-date: 2009-04-16T11:32:32.86
dcterms:modified: 2014-09-28T07:46:13.03
meta:save-date: 2014-09-28T07:46:13.03
Last-Modified: 2014-09-28T07:46:13.03
dcterms:created: 2009-04-16T11:32:32.86
date: 2014-09-28T07:46:13.03
modified: 2014-09-28T07:46:13.03
nbObject: 36
Edit-Time: PT32M6S
Creation-Date: 2009-04-16T11:32:32.86
Object-Count: 36
meta:object-count: 36
generator: OpenOffice/4.1.0$Win32 OpenOffice.org_project/410m18$Build-9764
Content-Type: application/vnd.oasis.opendocument.presentation
Last-Save-Date: 2014-09-28T07:46:13.03
Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un document Microsoft Office.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class MSExcelParse {
public static void main(final String[] args) throws IOException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example_msExcel.xlsx"));
ParseContext pcontext = new ParseContext();
//OOXml parser
OOXMLParser msofficeparser = new OOXMLParser ();
msofficeparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous MSExelParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac MSExcelParse.java
java MSExcelParse
Ici, nous transmettons l'exemple de fichier Excel suivant.
Le fichier Excel donné a les propriétés suivantes -
Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante.
Output -
Contents of the document:
Sheet1
Name Age Designation Salary
Ramu 50 Manager 50,000
Raheem 40 Assistant manager 40,000
Robert 30 Superviser 30,000
sita 25 Clerk 25,000
sameer 25 Section in-charge 20,000
Metadata of the document:
meta:creation-date: 2006-09-16T00:00:00Z
dcterms:modified: 2014-09-28T15:18:41Z
meta:save-date: 2014-09-28T15:18:41Z
Application-Name: Microsoft Excel
extended-properties:Company:
dcterms:created: 2006-09-16T00:00:00Z
Last-Modified: 2014-09-28T15:18:41Z
Application-Version: 15.0300
date: 2014-09-28T15:18:41Z
publisher:
modified: 2014-09-28T15:18:41Z
Creation-Date: 2006-09-16T00:00:00Z
extended-properties:AppVersion: 15.0300
protected: false
dc:publisher:
extended-properties:Application: Microsoft Excel
Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Last-Save-Date: 2014-09-28T15:18:41Z
Ci-dessous est le programme pour extraire le contenu et les métadonnées d'un document texte -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;
import org.xml.sax.SAXException;
public class TextParser {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.txt"));
ParseContext pcontext=new ParseContext();
//Text document parser
TXTParser TexTParser = new TXTParser();
TexTParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous TextParser.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac TextParser.java
java TextParser
Ci-dessous, un instantané du fichier sample.txt -
Le document texte a les propriétés suivantes -
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante.
Output -
Contents of the document:
At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning
purpose in the domains of Academics, Information Technology, Management and Computer
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing
director of Tutorials Point (I) Pvt. Ltd. He came up with the website tutorialspoint.com
in year 2006 with the help of handpicked freelancers, with an array of tutorials for
computer programming languages.
Metadata of the document:
Content-Encoding: windows-1252
Content-Type: text/plain; charset = windows-1252
Ci-dessous, le programme pour extraire le contenu et les métadonnées d'un document HTML.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.html"));
ParseContext pcontext = new ParseContext();
//Html parser
HtmlParser htmlparser = new HtmlParser();
htmlparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous HtmlParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac HtmlParse.java
java HtmlParse
Ci-dessous, un instantané du fichier example.txt.
Le document HTML a les propriétés suivantes -
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante.
Output -
Contents of the document:
Name Salary age
Ramesh Raman 50000 20
Shabbir Hussein 70000 25
Umesh Raman 50000 30
Somesh 50000 35
Metadata of the document:
title: HTML Table Header
Content-Encoding: windows-1252
Content-Type: text/html; charset = windows-1252
dc:title: HTML Table Header
Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un document XML -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class XmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("pom.xml"));
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous XmlParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac XmlParse.java
java XmlParse
Ci-dessous, un instantané du fichier example.xml
Ce document a les propriétés suivantes -
Si vous exécutez le programme ci-dessus, il vous donnera la sortie suivante -
Output -
Contents of the document:
4.0.0
org.apache.tika
tika
1.6
org.apache.tika
tika-core
1.6
org.apache.tika
tika-parsers
1.6
src
maven-compiler-plugin
3.1
1.7
1.7
Metadata of the document:
Content-Type: application/xml
Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un fichier .class.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.asm.ClassParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class JavaClassParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.class"));
ParseContext pcontext = new ParseContext();
//Html parser
ClassParser ClassParser = new ClassParser();
ClassParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous JavaClassParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac JavaClassParse.java
java JavaClassParse
Ci-dessous, un aperçu de Example.java qui générera Example.class après la compilation.
Example.class le fichier a les propriétés suivantes -
Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante.
Output -
Contents of the document:
package tutorialspoint.tika.examples;
public synchronized class Example {
public void Example();
public static void main(String[]);
}
Metadata of the document:
title: Example
resourceName: Example.class
dc:title: Example
Vous trouverez ci-dessous le programme pour extraire le contenu et les métadonnées d'un fichier Java Archive (jar) -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.pkg.PackageParser;
import org.xml.sax.SAXException;
public class PackageParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.jar"));
ParseContext pcontext = new ParseContext();
//Package parser
PackageParser packageparser = new PackageParser();
packageparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document: " + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous PackageParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac PackageParse.java
java PackageParse
Ci-dessous, un instantané de Example.java qui réside dans le package.
Le fichier jar a les propriétés suivantes -
Après avoir exécuté le programme ci-dessus, il vous donnera la sortie suivante -
Output -
Contents of the document:
META-INF/MANIFEST.MF
tutorialspoint/tika/examples/Example.class
Metadata of the document:
Content-Type: application/zip
Ci-dessous, le programme pour extraire le contenu et les métadonnées d'une image JPEG.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.jpeg.JpegParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class JpegParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("boy.jpg"));
ParseContext pcontext = new ParseContext();
//Jpeg Parse
JpegParser JpegParser = new JpegParser();
JpegParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous JpegParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac JpegParse.java
java JpegParse
Ci-dessous, un instantané de Example.jpeg -
Le fichier JPEG a les propriétés suivantes -
Après avoir exécuté le programme, vous obtiendrez la sortie suivante.
Output −
Contents of the document:
Meta data of the document:
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference: 53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Y Resolution: 300 dots
Ci-dessous, le programme pour extraire le contenu et les métadonnées des fichiers mp4 -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp4.MP4Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class Mp4Parse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.mp4"));
ParseContext pcontext = new ParseContext();
//Html parser
MP4Parser MP4Parser = new MP4Parser();
MP4Parser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document: :" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous JpegParse.java et compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac Mp4Parse.java
java Mp4Parse
Ci-dessous, un aperçu des propriétés du fichier Example.mp4.
Après avoir exécuté le programme ci-dessus, vous obtiendrez la sortie suivante -
Output -
Contents of the document:
Metadata of the document:
dcterms:modified: 2014-01-06T12:10:27Z
meta:creation-date: 1904-01-01T00:00:00Z
meta:save-date: 2014-01-06T12:10:27Z
Last-Modified: 2014-01-06T12:10:27Z
dcterms:created: 1904-01-01T00:00:00Z
date: 2014-01-06T12:10:27Z
tiff:ImageLength: 360
modified: 2014-01-06T12:10:27Z
Creation-Date: 1904-01-01T00:00:00Z
tiff:ImageWidth: 640
Content-Type: video/mp4
Last-Save-Date: 2014-01-06T12:10:27Z
Ci-dessous est le programme pour extraire le contenu et les métadonnées des fichiers mp3 -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp3.LyricsHandler;
import org.apache.tika.parser.mp3.Mp3Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class Mp3Parse {
public static void main(final String[] args) throws Exception, IOException, SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.mp3"));
ParseContext pcontext = new ParseContext();
//Mp3 parser
Mp3Parser Mp3Parser = new Mp3Parser();
Mp3Parser.parse(inputstream, handler, metadata, pcontext);
LyricsHandler lyrics = new LyricsHandler(inputstream,handler);
while(lyrics.hasLyrics()) {
System.out.println(lyrics.toString());
}
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Enregistrez le code ci-dessus sous JpegParse.javaet compilez-le à partir de l'invite de commande en utilisant les commandes suivantes -
javac Mp3Parse.java
java Mp3Parse
Le fichier Example.mp3 a les propriétés suivantes -
Vous obtiendrez la sortie suivante après avoir exécuté le programme. Si le fichier donné contient des paroles, notre application les capturera et les affichera avec la sortie.
Output -
Contents of the document:
Kanulanu Thaake
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng -
DRGM
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng -
DRGM
Metadata of the document:
xmpDM:releaseDate: 2014
xmpDM:duration: 30171.650390625
xmpDM:audioChannelType: Stereo
dc:creator: Arijit Singh
xmpDM:album: Manam (2014)
Author: Arijit Singh
xmpDM:artist: Arijit Singh
channels: 2
xmpDM:audioSampleRate: 44100
xmpDM:logComment: eng -
DRGM
xmpDM:trackNumber: 01/06
version: MPEG 3 Layer III Version 1
creator: Arijit Singh
xmpDM:composer: Music : Anoop Rubens | Lyrics : Vanamali
xmpDM:audioCompressor: MP3
title: Kanulanu Thaake
samplerate: 44100
meta:author: Arijit Singh
xmpDM:genre: Soundtrack
Content-Type: audio/mpeg
xmpDM:albumArtist: Manam (2014)
dc:title: Kanulanu Thaake