TIKA - Aperçu

Qu'est-ce qu'Apache Tika?

  • Apache Tika est une bibliothèque utilisée pour la détection de type de document et l'extraction de contenu à partir de divers formats de fichiers.

  • En interne, Tika utilise divers analyseurs de documents et techniques de détection de types de documents existants pour détecter et extraire les données.

  • En utilisant Tika, on peut développer un détecteur de type universel et un extracteur de contenu pour extraire à la fois du texte structuré et des métadonnées de différents types de documents tels que des feuilles de calcul, des documents texte, des images, des PDF et même des formats d'entrée multimédia dans une certaine mesure.

  • Tika fournit une API générique unique pour analyser différents formats de fichiers. Il utilise des bibliothèques d'analyseurs spécialisées existantes pour chaque type de document.

  • Toutes ces bibliothèques d'analyseurs sont encapsulées sous une seule interface appelée Parser interface.

Pourquoi Tika?

Selon filext.com, il existe environ 15 000 à 51 000 types de contenu, et ce nombre augmente de jour en jour. Les données sont stockées dans divers formats tels que des documents texte, des feuilles de calcul Excel, des fichiers PDF, des images et des fichiers multimédias, pour n'en nommer que quelques-uns. Par conséquent, les applications telles que les moteurs de recherche et les systèmes de gestion de contenu ont besoin d'un support supplémentaire pour une extraction facile des données à partir de ces types de documents. Apache Tika remplit cet objectif en fournissant une API générique pour localiser et extraire des données à partir de plusieurs formats de fichiers.

Applications Apache Tika

Il existe diverses applications qui utilisent Apache Tika. Ici, nous allons discuter de quelques applications importantes qui dépendent fortement d'Apache Tika.

Moteurs de recherche

Tika est largement utilisé lors du développement de moteurs de recherche pour indexer le contenu textuel des documents numériques.

  • Les moteurs de recherche sont des systèmes de traitement de l'information conçus pour rechercher des informations et des documents indexés sur le Web.

  • Le robot d'exploration est un composant important d'un moteur de recherche qui parcourt le Web pour récupérer les documents à indexer à l'aide d'une technique d'indexation. Ensuite, le robot transfère ces documents indexés vers un composant d'extraction.

  • Le devoir du composant d'extraction est d'extraire le texte et les métadonnées du document. Ces contenus et métadonnées extraits sont très utiles pour un moteur de recherche. Ce composant d'extraction contient Tika.

  • Le contenu extrait est ensuite transmis à l'indexeur du moteur de recherche qui l'utilise pour créer un index de recherche. En dehors de cela, le moteur de recherche utilise également le contenu extrait de nombreuses autres manières.

Analyse documentaire

  • Dans le domaine de l'intelligence artificielle, il existe certains outils pour analyser automatiquement les documents au niveau sémantique et en extraire toutes sortes de données.

  • Dans de telles applications, les documents sont classés en fonction des termes importants dans le contenu extrait du document.

  • Ces outils utilisent Tika pour l'extraction de contenu afin d'analyser des documents allant du texte brut aux documents numériques.

Gestion des actifs numériques

  • Certaines organisations gèrent leurs actifs numériques tels que des photographies, des livres électroniques, des dessins, de la musique et des vidéos à l'aide d'une application spéciale appelée gestion des actifs numériques (DAM).

  • Ces applications utilisent des détecteurs de type de document et un extracteur de métadonnées pour classer les différents documents.

Analyse de contenu

  • Des sites Web comme Amazon recommandent le contenu nouvellement publié de leur site Web aux utilisateurs individuels en fonction de leurs intérêts. Pour ce faire, ces sites Web suiventmachine learning techniques, ou prenez l'aide de sites Web de médias sociaux comme Facebook pour extraire les informations requises telles que les goûts et les intérêts des utilisateurs. Ces informations rassemblées se présenteront sous la forme de balises html ou d'autres formats nécessitant une détection et une extraction supplémentaires du type de contenu.

  • Pour l'analyse du contenu d'un document, nous disposons de technologies qui implémentent des techniques d'apprentissage automatique telles que UIMA et Mahout. Ces technologies sont utiles pour regrouper et analyser les données des documents.

  • Apache Mahoutest un framework qui fournit des algorithmes ML sur Apache Hadoop - une plateforme de cloud computing. Mahout fournit une architecture en suivant certaines techniques de clustering et de filtrage. En suivant cette architecture, les programmeurs peuvent écrire leurs propres algorithmes ML pour produire des recommandations en prenant diverses combinaisons de texte et de métadonnées. Pour fournir des entrées à ces algorithmes, les versions récentes de Mahout utilisent Tika pour extraire du texte et des métadonnées à partir de contenu binaire.

  • Apache UIMAanalyse et traite divers langages de programmation et produit des annotations UIMA. En interne, il utilise Tika Annotator pour extraire le texte et les métadonnées du document.

L'histoire

An Développement
2006 L'idée de Tika a été projetée devant le comité de gestion du projet Lucene.
2006 Le concept de Tika et son utilité dans le projet Jackrabbit ont été discutés.
2007 Tika est entré dans l'incubateur Apache.
2008 Les versions 0.1 et 0.2 sont sorties et Tika est passée de l'incubateur au sous-projet Lucene.
2009 Les versions 0.3, 0.4 et 0.5 ont été publiées.
2010 Les versions 0.6 et 0.7 ont été publiées et Tika a obtenu son diplôme dans le projet Apache de haut niveau.
2011 Tika 1.0 est sorti et le livre sur Tika "Tika in Action" est également sorti la même année.