TIKA - Genel Bakış

Apache Tika nedir?

  • Apache Tika, çeşitli dosya formatlarından belge türü algılama ve içerik çıkarma için kullanılan bir kitaplıktır.

  • Tika, verileri algılamak ve çıkarmak için dahili olarak mevcut çeşitli belge ayrıştırıcıları ve belge türü algılama tekniklerini kullanır.

  • Tika'yı kullanarak, hem yapılandırılmış metni hem de meta verileri elektronik tablolar, metin belgeleri, görüntüler, PDF'ler ve hatta multimedya giriş biçimleri gibi farklı türden belgelerden belirli bir dereceye kadar çıkarmak için evrensel bir tür algılayıcı ve içerik çıkarıcı geliştirilebilir.

  • Tika, farklı dosya formatlarını ayrıştırmak için tek bir genel API sağlar. Her belge türü için mevcut özel ayrıştırıcı kitaplıklarını kullanır.

  • Tüm bu ayrıştırıcı kitaplıkları, adı verilen tek bir arabirim altında toplanmıştır. Parser interface.

Neden Tika?

Filext.com'a göre, yaklaşık 15 bin ila 51 bin içerik türü var ve bu sayı her geçen gün artıyor. Veriler, metin belgeleri, excel hesap tablosu, PDF'ler, görüntüler ve multimedya dosyaları gibi çeşitli biçimlerde depolanmaktadır. Bu nedenle, arama motorları ve içerik yönetim sistemleri gibi uygulamalar, bu belge türlerinden verilerin kolayca çıkarılması için ek desteğe ihtiyaç duyar. Apache Tika bu amaca, birden çok dosya formatından veri bulmak ve çıkarmak için genel bir API sağlayarak hizmet eder.

Apache Tika Uygulamaları

Apache Tika'yı kullanan çeşitli uygulamalar vardır. Burada, büyük ölçüde Apache Tika'ya bağlı olan birkaç önemli uygulamayı tartışacağız.

Arama motorları

Tika, dijital belgelerin metin içeriklerini indekslemek için arama motorlarını geliştirirken yaygın olarak kullanılmaktadır.

  • Arama motorları, Web'den bilgi ve indekslenmiş belgeleri aramak için tasarlanmış bilgi işleme sistemleridir.

  • Tarayıcı, bazı dizin oluşturma tekniklerini kullanarak dizine eklenecek belgeleri almak için Web'de gezinen bir arama motorunun önemli bir bileşenidir. Bundan sonra, tarayıcı bu dizine alınmış belgeleri bir çıkarma bileşenine aktarır.

  • Çıkarma bileşeninin görevi, belgeden metni ve meta verileri çıkarmaktır. Bu tür çıkarılan içerik ve meta veriler bir arama motoru için çok kullanışlıdır. Bu ekstraksiyon bileşeni Tika içerir.

  • Çıkarılan içerik daha sonra bir arama dizini oluşturmak için onu kullanan arama motorunun dizinleyicisine aktarılır. Bunun dışında arama motoru, çıkarılan içeriği başka birçok şekilde de kullanır.

Belge Analizi

  • Yapay zeka alanında, belgeleri otomatik olarak anlamsal düzeyde analiz etmek ve bunlardan her türlü veriyi çıkarmak için belirli araçlar bulunmaktadır.

  • Bu tür başvurularda belgeler, belgenin çıkarılan içeriğinde öne çıkan terimlere göre sınıflandırılır.

  • Bu araçlar, düz metinden dijital belgelere kadar değişen belgeleri analiz etmek için içerik çıkarma için Tika'yı kullanır.

Dijital Varlık Yönetimi

  • Bazı kuruluşlar, dijital varlık yönetimi (DAM) olarak bilinen özel bir uygulama kullanarak fotoğraf, e-kitap, çizim, müzik ve video gibi dijital varlıklarını yönetir.

  • Bu tür uygulamalar, çeşitli belgeleri sınıflandırmak için belge türü algılayıcılarından ve meta veri çıkarıcıdan yardım alır.

İçerik analizi

  • Amazon gibi web siteleri, web sitelerinin yeni yayınlanan içeriklerini ilgi alanlarına göre bireysel kullanıcılara tavsiye ediyor. Bunu yapmak için bu web siteleri takip edermachine learning techniquesveya Facebook gibi sosyal medya web sitelerinden kullanıcıların beğenileri ve ilgi alanları gibi gerekli bilgileri almak için yardım alın. Toplanan bu bilgiler html etiketleri veya daha fazla içerik türü tespiti ve çıkarımı gerektiren diğer formatlar biçiminde olacaktır.

  • Bir belgenin içerik analizi için, makine öğrenimi tekniklerini uygulayan teknolojilere sahibiz. UIMA ve Mahout. Bu teknolojiler, belgelerdeki verileri kümeleme ve analiz etmede kullanışlıdır.

  • Apache Mahoutbir bulut bilişim platformu olan Apache Hadoop'ta makine öğrenimi algoritmaları sağlayan bir çerçevedir. Mahout, belirli kümeleme ve filtreleme tekniklerini izleyerek bir mimari sağlar. Bu mimariyi takip ederek, programcılar çeşitli metin ve meta veri kombinasyonlarını alarak öneriler üretmek için kendi ML algoritmalarını yazabilirler. Bu algoritmalara girdi sağlamak için Mahout'un son sürümleri Tika'yı ikili içerikten metin ve meta veri çıkarmak için kullanıyor.

  • Apache UIMAçeşitli programlama dillerini analiz eder ve işler ve UIMA açıklamalarını üretir. Dahili olarak belge metnini ve meta verileri çıkarmak için Tika Annotator kullanır.

Tarih

Yıl Geliştirme
2006 Tika fikri, Lucene Proje Yönetim Komitesi önünde yansıtıldı.
2006 Tika kavramı ve Jackrabbit projesindeki kullanışlılığı tartışıldı.
2007 Tika, Apache kuluçka makinesine girdi.
2008 0.1 ve 0.2 sürümleri yayınlandı ve Tika, kuluçka makinesinden Lucene alt projesine mezun oldu.
2009 0.3, 0.4 ve 0.5 sürümleri yayınlandı.
2010 Sürüm 0.6 ve 0.7 yayınlandı ve Tika, üst düzey Apache projesine mezun oldu.
2011 Tika 1.0 yayınlandı ve aynı yıl Tika "Tika in Action" kitabı da yayınlandı.