TIKA - przegląd

Co to jest Apache Tika?

Apache Tika to biblioteka używana do wykrywania typów dokumentów i wyodrębniania treści z różnych formatów plików.
Wewnętrznie Tika wykorzystuje istniejące różne parsery dokumentów i techniki wykrywania typów dokumentów do wykrywania i wyodrębniania danych.
Korzystając z Tika, można opracować uniwersalny wykrywacz typów i ekstraktor treści, aby wyodrębnić zarówno tekst strukturalny, jak i metadane z różnych typów dokumentów, takich jak arkusze kalkulacyjne, dokumenty tekstowe, obrazy, pliki PDF, a nawet do pewnego stopnia multimedialne formaty wejściowe.
Tika zapewnia jeden ogólny interfejs API do analizowania różnych formatów plików. Wykorzystuje istniejące wyspecjalizowane biblioteki parserów dla każdego typu dokumentu.
Wszystkie te biblioteki parserów są zamknięte w jednym interfejsie zwanym Parser interface.

Dlaczego Tika?

Według filext.com istnieje około 15 000 do 51 000 typów treści, a liczba ta rośnie z dnia na dzień. Dane są przechowywane w różnych formatach, takich jak dokumenty tekstowe, arkusze kalkulacyjne programu Excel, pliki PDF, obrazy i pliki multimedialne, by wymienić tylko kilka. Dlatego aplikacje takie jak wyszukiwarki i systemy zarządzania treścią wymagają dodatkowego wsparcia w celu łatwego wyodrębniania danych z tych typów dokumentów. Apache Tika służy temu celowi, zapewniając ogólny interfejs API do lokalizowania i wyodrębniania danych z wielu formatów plików.

Aplikacje Apache Tika

Istnieje wiele aplikacji korzystających z Apache Tika. Tutaj omówimy kilka znaczących aplikacji, które w dużym stopniu zależą od Apache Tika.

Wyszukiwarki

Tika jest szeroko stosowana podczas opracowywania wyszukiwarek do indeksowania treści tekstowych dokumentów cyfrowych.

Wyszukiwarki to systemy przetwarzania informacji zaprojektowane do wyszukiwania informacji i indeksowanych dokumentów w Internecie.
Crawler to ważny element wyszukiwarki, który przeszukuje sieć WWW w celu pobrania dokumentów, które mają być indeksowane, przy użyciu określonej techniki indeksowania. Następnie przeszukiwacz przekazuje te zindeksowane dokumenty do komponentu wyodrębniania.
Obowiązkiem komponentu wyodrębniającego jest wyodrębnienie tekstu i metadanych z dokumentu. Taka wyodrębniona treść i metadane są bardzo przydatne dla wyszukiwarki. Ten składnik ekstrakcji zawiera Tika.
Wyodrębniona treść jest następnie przekazywana do indeksatora wyszukiwarki, który używa jej do tworzenia indeksu wyszukiwania. Oprócz tego wyszukiwarka wykorzystuje wyodrębnioną treść również na wiele innych sposobów.

Analiza dokumentów

W dziedzinie sztucznej inteligencji istnieją narzędzia do automatycznej analizy dokumentów na poziomie semantycznym i wydobywania z nich wszelkiego rodzaju danych.
W takich aplikacjach dokumenty są klasyfikowane na podstawie najważniejszych terminów w wyodrębnionej treści dokumentu.
Narzędzia te wykorzystują Tika do wyodrębniania treści w celu analizy różnych dokumentów, od zwykłego tekstu po dokumenty cyfrowe.

Zarządzanie zasobami cyfrowymi

Niektóre organizacje zarządzają swoimi zasobami cyfrowymi, takimi jak zdjęcia, książki elektroniczne, rysunki, muzyka i wideo, za pomocą specjalnej aplikacji znanej jako zarządzanie zasobami cyfrowymi (DAM).
Takie aplikacje korzystają z pomocy detektorów typów dokumentów i ekstraktora metadanych do klasyfikowania różnych dokumentów.

Analiza treści

Strony internetowe, takie jak Amazon, polecają nowo wydane treści na swoich stronach internetowych indywidualnym użytkownikom zgodnie z ich zainteresowaniami. Aby to zrobić, podążają następujące strony internetowemachine learning techniqueslub skorzystaj z pomocy serwisów społecznościowych, takich jak Facebook, aby uzyskać wymagane informacje, takie jak upodobania i zainteresowania użytkowników. Zebrane informacje będą miały postać tagów html lub innych formatów, które wymagają dalszego wykrywania i wyodrębniania typu treści.
Do analizy treści dokumentu dysponujemy technologiami, które wdrażają techniki uczenia maszynowego, takie jak UIMA i Mahout. Technologie te są przydatne do grupowania i analizowania danych w dokumentach.
Apache Mahoutto framework udostępniający algorytmy ML na Apache Hadoop - platformie przetwarzania w chmurze. Mahout zapewnia architekturę, stosując pewne techniki klastrowania i filtrowania. Postępując zgodnie z tą architekturą, programiści mogą pisać własne algorytmy ML, aby tworzyć zalecenia, biorąc różne kombinacje tekstu i metadanych. Aby zapewnić dane wejściowe dla tych algorytmów, najnowsze wersje Mahout używają Tiki do wyodrębniania tekstu i metadanych z zawartości binarnej.
Apache UIMAanalizuje i przetwarza różne języki programowania oraz tworzy adnotacje UIMA. Wewnętrznie wykorzystuje Tika Annotator do wyodrębniania tekstu dokumentu i metadanych.

Historia

Rok	Rozwój
2006	Pomysł Tiki został przedstawiony przed Komitetem Zarządzającym Projektem Lucene.
2006	Omówiono koncepcję Tiki i jej przydatność w projekcie Jackrabbit.
2007	Tika weszła do inkubatora Apache.
2008	Wydano wersje 0.1 i 0.2, a Tika przeszła z inkubatora do podprojektu Lucene.
2009	Wydano wersje 0.3, 0.4 i 0.5.
2010	Wersje 0.6 i 0.7 zostały wydane, a Tika przeszła do projektu Apache najwyższego poziomu.
2011	Tika 1.0 została wydana, a książka o Tika „Tika in Action” została wydana w tym samym roku.