TIKA - przegląd

Co to jest Apache Tika?

  • Apache Tika to biblioteka używana do wykrywania typów dokumentów i wyodrębniania treści z różnych formatów plików.

  • Wewnętrznie Tika wykorzystuje istniejące różne parsery dokumentów i techniki wykrywania typów dokumentów do wykrywania i wyodrębniania danych.

  • Korzystając z Tika, można opracować uniwersalny wykrywacz typów i ekstraktor treści, aby wyodrębnić zarówno tekst strukturalny, jak i metadane z różnych typów dokumentów, takich jak arkusze kalkulacyjne, dokumenty tekstowe, obrazy, pliki PDF, a nawet do pewnego stopnia multimedialne formaty wejściowe.

  • Tika zapewnia jeden ogólny interfejs API do analizowania różnych formatów plików. Wykorzystuje istniejące wyspecjalizowane biblioteki parserów dla każdego typu dokumentu.

  • Wszystkie te biblioteki parserów są zamknięte w jednym interfejsie zwanym Parser interface.

Dlaczego Tika?

Według filext.com istnieje około 15 000 do 51 000 typów treści, a liczba ta rośnie z dnia na dzień. Dane są przechowywane w różnych formatach, takich jak dokumenty tekstowe, arkusze kalkulacyjne programu Excel, pliki PDF, obrazy i pliki multimedialne, by wymienić tylko kilka. Dlatego aplikacje takie jak wyszukiwarki i systemy zarządzania treścią wymagają dodatkowego wsparcia w celu łatwego wyodrębniania danych z tych typów dokumentów. Apache Tika służy temu celowi, zapewniając ogólny interfejs API do lokalizowania i wyodrębniania danych z wielu formatów plików.

Aplikacje Apache Tika

Istnieje wiele aplikacji korzystających z Apache Tika. Tutaj omówimy kilka znaczących aplikacji, które w dużym stopniu zależą od Apache Tika.

Wyszukiwarki

Tika jest szeroko stosowana podczas opracowywania wyszukiwarek do indeksowania treści tekstowych dokumentów cyfrowych.

  • Wyszukiwarki to systemy przetwarzania informacji zaprojektowane do wyszukiwania informacji i indeksowanych dokumentów w Internecie.

  • Crawler to ważny element wyszukiwarki, który przeszukuje sieć WWW w celu pobrania dokumentów, które mają być indeksowane, przy użyciu określonej techniki indeksowania. Następnie przeszukiwacz przekazuje te zindeksowane dokumenty do komponentu wyodrębniania.

  • Obowiązkiem komponentu wyodrębniającego jest wyodrębnienie tekstu i metadanych z dokumentu. Taka wyodrębniona treść i metadane są bardzo przydatne dla wyszukiwarki. Ten składnik ekstrakcji zawiera Tika.

  • Wyodrębniona treść jest następnie przekazywana do indeksatora wyszukiwarki, który używa jej do tworzenia indeksu wyszukiwania. Oprócz tego wyszukiwarka wykorzystuje wyodrębnioną treść również na wiele innych sposobów.

Analiza dokumentów

  • W dziedzinie sztucznej inteligencji istnieją narzędzia do automatycznej analizy dokumentów na poziomie semantycznym i wydobywania z nich wszelkiego rodzaju danych.

  • W takich aplikacjach dokumenty są klasyfikowane na podstawie najważniejszych terminów w wyodrębnionej treści dokumentu.

  • Narzędzia te wykorzystują Tika do wyodrębniania treści w celu analizy różnych dokumentów, od zwykłego tekstu po dokumenty cyfrowe.

Zarządzanie zasobami cyfrowymi

  • Niektóre organizacje zarządzają swoimi zasobami cyfrowymi, takimi jak zdjęcia, książki elektroniczne, rysunki, muzyka i wideo, za pomocą specjalnej aplikacji znanej jako zarządzanie zasobami cyfrowymi (DAM).

  • Takie aplikacje korzystają z pomocy detektorów typów dokumentów i ekstraktora metadanych do klasyfikowania różnych dokumentów.

Analiza treści

  • Strony internetowe, takie jak Amazon, polecają nowo wydane treści na swoich stronach internetowych indywidualnym użytkownikom zgodnie z ich zainteresowaniami. Aby to zrobić, podążają następujące strony internetowemachine learning techniqueslub skorzystaj z pomocy serwisów społecznościowych, takich jak Facebook, aby uzyskać wymagane informacje, takie jak upodobania i zainteresowania użytkowników. Zebrane informacje będą miały postać tagów html lub innych formatów, które wymagają dalszego wykrywania i wyodrębniania typu treści.

  • Do analizy treści dokumentu dysponujemy technologiami, które wdrażają techniki uczenia maszynowego, takie jak UIMA i Mahout. Technologie te są przydatne do grupowania i analizowania danych w dokumentach.

  • Apache Mahoutto framework udostępniający algorytmy ML na Apache Hadoop - platformie przetwarzania w chmurze. Mahout zapewnia architekturę, stosując pewne techniki klastrowania i filtrowania. Postępując zgodnie z tą architekturą, programiści mogą pisać własne algorytmy ML, aby tworzyć zalecenia, biorąc różne kombinacje tekstu i metadanych. Aby zapewnić dane wejściowe dla tych algorytmów, najnowsze wersje Mahout używają Tiki do wyodrębniania tekstu i metadanych z zawartości binarnej.

  • Apache UIMAanalizuje i przetwarza różne języki programowania oraz tworzy adnotacje UIMA. Wewnętrznie wykorzystuje Tika Annotator do wyodrębniania tekstu dokumentu i metadanych.

Historia

Rok Rozwój
2006 Pomysł Tiki został przedstawiony przed Komitetem Zarządzającym Projektem Lucene.
2006 Omówiono koncepcję Tiki i jej przydatność w projekcie Jackrabbit.
2007 Tika weszła do inkubatora Apache.
2008 Wydano wersje 0.1 i 0.2, a Tika przeszła z inkubatora do podprojektu Lucene.
2009 Wydano wersje 0.3, 0.4 i 0.5.
2010 Wersje 0.6 i 0.7 zostały wydane, a Tika przeszła do projektu Apache najwyższego poziomu.
2011 Tika 1.0 została wydana, a książka o Tika „Tika in Action” została wydana w tym samym roku.