PDFBox-概要
Portable Document Format(PDF)は、アプリケーションソフトウェア、ハードウェア、およびオペレーティングシステムに依存しない方法でデータを表示するのに役立つファイル形式です。
各PDFファイルには、テキスト、フォント、グラフィック、および表示に必要なその他の情報を含む、固定レイアウトのフラットドキュメントの説明が含まれています。
次のようなプログラムを介してPDFドキュメントを作成および操作するために使用できるライブラリがいくつかあります。
Adobe PDF Library −このライブラリは、C ++ 、. NET、Javaなどの言語でAPIを提供し、これを使用して、PDFドキュメントからテキストを編集、表示、印刷、および抽出できます。
Formatting Objects Processor− XSL FormattingObjectsによって駆動されるオープンソースの印刷フォーマッターと出力に依存しないフォーマッター。主な出力ターゲットはPDFです。
iText −このライブラリは、Java、C#、その他の.NET言語などの言語でAPIを提供し、このライブラリを使用して、PDF、RTF、およびHTMLドキュメントを作成および操作できます。
JasperReports −これは、Microsoft Excel、RTF、ODT、コンマ区切り値、XMLファイルを含むPDFドキュメントでレポートを生成するJavaレポートツールです。
PDFBoxとは
Apache PDFBoxは、PDFドキュメントの開発と変換をサポートするオープンソースのJavaライブラリです。このライブラリを使用すると、PDFドキュメントを作成、変換、操作するJavaプログラムを開発できます。
これに加えて、PDFBoxには、利用可能なJarファイルを使用してPDFに対してさまざまな操作を実行するためのコマンドラインユーティリティも含まれています。
PDFBoxの機能
以下はPDFBoxの注目すべき機能です-
Extract Text − PDFBoxを使用すると、PDFファイルからUnicodeテキストを抽出できます。
Split & Merge − PDFBoxを使用すると、1つのPDFファイルを複数のファイルに分割し、それらを1つのファイルとしてマージして戻すことができます。
Fill Forms − PDFBoxを使用して、フォームデータをドキュメントに入力できます。
Print − PDFBoxを使用すると、標準のJava印刷APIを使用してPDFファイルを印刷できます。
Save as Image − PDFBoxを使用すると、PDFをPNGやJPEGなどの画像ファイルとして保存できます。
Create PDFs − PDFBoxを使用すると、Javaプログラムを作成して新しいPDFファイルを作成できます。また、画像やフォントを含めることもできます。
Signing− PDFBoxを使用して、PDFファイルにデジタル署名を追加できます。
PDFBoxのアプリケーション
以下はPDFBoxのアプリケーションです-
Apache Nutch− Apache Nutchは、オープンソースのWeb検索ソフトウェアです。これはApacheLucene上に構築され、クローラー、リンクグラフデータベース、HTMLやその他のドキュメント形式のパーサーなどのWeb固有のものを追加します。
Apache Tika − Apache Tikaは、既存のパーサーライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキストコンテンツを検出および抽出するためのツールキットです。
PDFBoxのコンポーネント
以下はPDFBoxの4つの主要コンポーネントです-
PDFBox−これはPDFBoxの主要部分です。これには、コンテンツの抽出と操作に関連するクラスとインターフェイスが含まれています。
FontBox −これには、フォントに関連するクラスとインターフェイスが含まれています。これらのクラスを使用して、PDFドキュメントのテキストのフォントを変更できます。
XmpBox −これには、XMPメタデータを処理するクラスとインターフェイスが含まれます。
Preflight −このコンポーネントは、PDFファイルをPDF / A-1b標準と照合するために使用されます。