PDFBox - Genel Bakış

Taşınabilir Belge Biçimi (PDF), verileri Uygulama yazılımı, donanımı ve işletim sistemlerinden bağımsız bir şekilde sunmaya yardımcı olan bir dosya biçimidir.

Her PDF dosyası, metin, yazı tipleri, grafikler ve onu görüntülemek için gereken diğer bilgiler dahil olmak üzere sabit yerleşimli düz bir belgenin açıklamasını içerir.

PDF belgelerini programlar aracılığıyla oluşturmak ve işlemek için kullanılabilen birkaç kitaplık vardır, örneğin:

  • Adobe PDF Library - Bu kütüphane, C ++, .NET ve Java gibi dillerde API sağlar ve bunu kullanarak PDF belgelerini düzenleyebilir, yazdırabilir ve metinleri çıkarabiliriz.

  • Formatting Objects Processor- XSL Formatting Objects ve çıktıdan bağımsız bir formatlayıcı tarafından yönlendirilen açık kaynaklı baskı formatlayıcı. Birincil çıktı hedefi PDF'dir.

  • iText - Bu kitaplık, Java, C # ve diğer .NET dilleri gibi dillerde API sağlar ve bu kitaplığı kullanarak PDF, RTF ve HTML belgeleri oluşturabilir ve işleyebiliriz.

  • JasperReports - Bu, Microsoft Excel, RTF, ODT, virgülle ayrılmış değerler ve XML dosyaları dahil olmak üzere PDF belgesinde raporlar oluşturan bir Java raporlama aracıdır.

PDFBox nedir

Apache PDFBox, PDF belgelerinin geliştirilmesini ve dönüştürülmesini destekleyen açık kaynaklı bir Java kitaplığıdır. Bu kitaplığı kullanarak, PDF belgelerini oluşturan, dönüştüren ve işleyen Java programları geliştirebilirsiniz.

Buna ek olarak, PDFBox ayrıca mevcut Jar dosyasını kullanarak PDF üzerinden çeşitli işlemler gerçekleştirmek için bir komut satırı yardımcı programı içerir.

PDFBox'ın Özellikleri

PDFBox'ın dikkate değer özellikleri aşağıdadır -

  • Extract Text - PDFBox kullanarak, Unicode metnini PDF dosyalarından çıkarabilirsiniz.

  • Split & Merge - PDFBox kullanarak, tek bir PDF dosyasını birden çok dosyaya bölebilir ve bunları tek bir dosya olarak birleştirebilirsiniz.

  • Fill Forms - PDFBox kullanarak, form verilerini bir belgede doldurabilirsiniz.

  • Print - PDFBox kullanarak, standart Java yazdırma API'sini kullanarak bir PDF dosyası yazdırabilirsiniz.

  • Save as Image - PDFBox kullanarak, PDF'leri PNG veya JPEG gibi görüntü dosyaları olarak kaydedebilirsiniz.

  • Create PDFs - PDFBox kullanarak, Java programları oluşturarak yeni bir PDF dosyası oluşturabilir ve ayrıca resimler ve yazı tipleri ekleyebilirsiniz.

  • Signing- PDFBox kullanarak, PDF dosyalarına dijital imzalar ekleyebilirsiniz.

PDFBox uygulamaları

Aşağıdakiler PDFBox uygulamalarıdır -

  • Apache Nutch- Apache Nutch, açık kaynaklı bir web arama yazılımıdır. Tarayıcı, bağlantı grafiği veritabanı, HTML ayrıştırıcıları ve diğer belge biçimleri gibi web'e özgü özellikler ekleyerek Apache Lucene üzerine kurulur.

  • Apache Tika - Apache Tika, mevcut ayrıştırıcı kitaplıklarını kullanarak çeşitli belgelerdeki meta verileri ve yapılandırılmış metin içeriğini algılamak ve çıkarmak için bir araç setidir.

PDFBox Bileşenleri

Aşağıdakiler, PDFBox'ın dört ana bileşenidir -

  • PDFBox- Bu, PDFBox'ın ana parçasıdır. Bu, içerik çıkarma ve işleme ile ilgili sınıfları ve arayüzleri içerir.

  • FontBox - Bu, fontla ilgili sınıfları ve arayüzleri içerir ve bu sınıfları kullanarak PDF belgesinin metninin fontunu değiştirebiliriz.

  • XmpBox - Bu, XMP meta verilerini işleyen sınıfları ve arabirimleri içerir.

  • Preflight - Bu bileşen, PDF dosyalarını PDF / A-1b standardına göre doğrulamak için kullanılır.