Python - Обработка PDF
Python может читать файлы PDF и распечатывать содержимое после извлечения из него текста. Для этого мы должны сначала установить необходимый модуль, которыйPyPDF2. Ниже представлена команда для установки модуля. У вас должен быть уже установлен pip в вашей среде python.
pip install pypdf2
После успешной установки этого модуля мы сможем читать файлы PDF, используя методы, доступные в модуле.
import PyPDF2
pdfName = 'path\Tutorialspoint.pdf'
read_pdf = PyPDF2.PdfFileReader(pdfName)
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
Когда мы запускаем указанную выше программу, мы получаем следующий результат -
Tutorials Point originated from the idea that there exists a class of readers who respond better
to online content and prefer to learn new skills at their own pace from the comforts of their
drawing rooms.
The journey commenced with a single tutorial on HTML in 2006 and elated by the response
it generated, we worked our way to adding fresh tutorials to our repository which now
proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming
languages to web designing to academics and much more.
Чтение нескольких страниц
Чтобы прочитать PDF-файл с несколькими страницами и распечатать каждую страницу с номером страницы, мы используем цикл с функцией getPageNumber (). В приведенном ниже примере представлен файл PDF, состоящий из двух страниц. Содержание печатается под двумя отдельными заголовками страниц.
import PyPDF2
pdfName = 'Path\Tutorialspoint2.pdf'
read_pdf = PyPDF2.PdfFileReader(pdfName)
for i in xrange(read_pdf.getNumPages()):
page = read_pdf.getPage(i)
print 'Page No - ' + str(1+read_pdf.getPageNumber(page))
page_content = page.extractText()
print page_content
Когда мы запускаем указанную выше программу, мы получаем следующий результат -
Page No - 1
Tutorials Point originated from the idea that there exists a class of readers who respond better to
online content and prefer to learn new skills at their own pace from the comforts of their drawing
Page No - 2
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it
generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts
a wealth of tutorials and allied articles on topics ranging from p
rogramming languages to web
designing to academics and much more.