PDFBox - Visão geral
O Portable Document Format (PDF) é um formato de arquivo que ajuda a apresentar os dados de maneira independente do software aplicativo, hardware e sistemas operacionais.
Cada arquivo PDF contém a descrição de um documento plano de layout fixo, incluindo texto, fontes, gráficos e outras informações necessárias para exibi-lo.
Existem várias bibliotecas disponíveis para criar e manipular documentos PDF por meio de programas, como -
Adobe PDF Library - Esta biblioteca fornece API em linguagens como C ++, .NET e Java e, usando isso, podemos editar, visualizar, imprimir e extrair texto de documentos PDF.
Formatting Objects Processor- Formatador de impressão de código aberto conduzido por objetos de formatação XSL e um formatador independente de saída. O destino de saída principal é PDF.
iText - Esta biblioteca fornece API em linguagens como Java, C # e outras linguagens .NET e, usando esta biblioteca, podemos criar e manipular documentos PDF, RTF e HTML.
JasperReports - Esta é uma ferramenta de relatório Java que gera relatórios em documentos PDF, incluindo Microsoft Excel, RTF, ODT, valores separados por vírgula e arquivos XML.
O que é um PDFBox
Apache PDFBox é uma biblioteca Java de código aberto que suporta o desenvolvimento e a conversão de documentos PDF. Usando esta biblioteca, você pode desenvolver programas Java que criam, convertem e manipulam documentos PDF.
Além disso, o PDFBox também inclui um utilitário de linha de comando para realizar várias operações em PDF usando o arquivo Jar disponível.
Recursos do PDFBox
A seguir estão os recursos notáveis do PDFBox -
Extract Text - Usando o PDFBox, você pode extrair texto Unicode de arquivos PDF.
Split & Merge - Usando o PDFBox, você pode dividir um único arquivo PDF em vários arquivos e mesclá-los novamente como um único arquivo.
Fill Forms - Usando o PDFBox, você pode preencher os dados do formulário em um documento.
Print - Usando o PDFBox, você pode imprimir um arquivo PDF usando a API de impressão Java padrão.
Save as Image - Usando o PDFBox, você pode salvar PDFs como arquivos de imagem, como PNG ou JPEG.
Create PDFs - Usando PDFBox, você pode criar um novo arquivo PDF criando programas Java e, você também pode incluir imagens e fontes.
Signing- Usando o PDFBox, você pode adicionar assinaturas digitais aos arquivos PDF.
Aplicações do PDFBox
A seguir estão os aplicativos do PDFBox -
Apache Nutch- Apache Nutch é um software de pesquisa na web de código aberto. Ele se baseia no Apache Lucene, adicionando específicos da web, como um rastreador, um banco de dados de gráfico de link, analisadores para HTML e outros formatos de documento, etc.
Apache Tika - Apache Tika é um kit de ferramentas para detectar e extrair metadados e conteúdo de texto estruturado de vários documentos usando bibliotecas de analisador existentes.
Componentes do PDFBox
A seguir estão os quatro componentes principais do PDFBox -
PDFBox- Esta é a parte principal do PDFBox. Contém as classes e interfaces relacionadas à extração e manipulação de conteúdo.
FontBox - Contém as classes e interfaces relacionadas à fonte e, usando essas classes, podemos modificar a fonte do texto do documento PDF.
XmpBox - Contém as classes e interfaces que manipulam metadados XMP.
Preflight - Este componente é usado para verificar os arquivos PDF em relação ao padrão PDF / A-1b.