PDFBox - Обзор
Формат переносимого документа (PDF) - это формат файла, который помогает представлять данные способом, не зависящим от прикладного программного обеспечения, оборудования и операционных систем.
Каждый файл PDF содержит описание плоского документа с фиксированным макетом, включая текст, шрифты, графику и другую информацию, необходимую для его отображения.
Доступно несколько библиотек для создания и управления PDF-документами с помощью программ, таких как -
Adobe PDF Library - Эта библиотека предоставляет API на таких языках, как C ++, .NET и Java, и с ее помощью мы можем редактировать, просматривать печать и извлекать текст из документов PDF.
Formatting Objects Processor- Модуль форматирования печати с открытым исходным кодом, управляемый объектами форматирования XSL, и модуль форматирования, не зависящий от вывода. Основная цель вывода - PDF.
iText - Эта библиотека предоставляет API на таких языках, как Java, C # и другие языки .NET, и с помощью этой библиотеки мы можем создавать документы PDF, RTF и HTML и управлять ими.
JasperReports - Это инструмент отчетности Java, который создает отчеты в формате PDF, включая Microsoft Excel, RTF, ODT, значения, разделенные запятыми, и файлы XML.
Что такое PDFBox
Apache PDFBox - это библиотека Java с открытым исходным кодом, которая поддерживает разработку и преобразование документов PDF. Используя эту библиотеку, вы можете разрабатывать программы на Java, которые создают, конвертируют и управляют документами PDF.
В дополнение к этому PDFBox также включает утилиту командной строки для выполнения различных операций с PDF с использованием доступного файла Jar.
Особенности PDFBox
Ниже приведены примечательные особенности PDFBox:
Extract Text - Используя PDFBox, вы можете извлекать текст Unicode из файлов PDF.
Split & Merge - Используя PDFBox, вы можете разделить один PDF-файл на несколько файлов и объединить их в один файл.
Fill Forms - Используя PDFBox, вы можете заполнить данные формы в документе.
Print - Используя PDFBox, вы можете распечатать файл PDF, используя стандартный API печати Java.
Save as Image - Используя PDFBox, вы можете сохранять PDF-файлы как файлы изображений, например PNG или JPEG.
Create PDFs - Используя PDFBox, вы можете создавать новый PDF-файл, создавая программы на Java, а также включать изображения и шрифты.
Signing- Используя PDFBox, вы можете добавлять цифровые подписи к файлам PDF.
Приложения PDFBox
Ниже приведены приложения PDFBox -
Apache Nutch- Apache Nutch - это программа для веб-поиска с открытым исходным кодом. Он основан на Apache Lucene, добавляя специфические веб-особенности, такие как поисковый робот, базу данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.
Apache Tika - Apache Tika - это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек парсеров.
Компоненты PDFBox
Ниже приведены четыре основных компонента PDFBox:
PDFBox- Это основная часть PDFBox. Он содержит классы и интерфейсы, связанные с извлечением контента и манипулированием им.
FontBox - Он содержит классы и интерфейсы, связанные со шрифтом, и с помощью этих классов мы можем изменить шрифт текста документа PDF.
XmpBox - Он содержит классы и интерфейсы, которые обрабатывают метаданные XMP.
Preflight - Этот компонент используется для проверки файлов PDF на соответствие стандарту PDF / A-1b.