Python - Xử lý tài liệu Word
Để đọc một tài liệu word, chúng tôi sử dụng sự trợ giúp của mô-đun có tên docx. Đầu tiên chúng ta cài đặt docx như hình dưới đây. Sau đó, viết một chương trình sử dụng các chức năng khác nhau trong mô-đun docx để đọc toàn bộ tệp theo từng đoạn.
Chúng tôi sử dụng lệnh dưới đây để đưa mô-đun docx vào môi trường của chúng tôi.
pip install docx
Trong ví dụ dưới đây, chúng ta đọc nội dung của một tài liệu word bằng cách nối mỗi dòng vào một đoạn văn và cuối cùng in ra tất cả văn bản đoạn văn.
import docx
def readtxt(filename):
doc = docx.Document(filename)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
return '\n'.join(fullText)
print (readtxt('path\Tutorialspoint.docx'))
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
Tutorials Point originated from the idea that there exists a class of readers who respond
better to online content and prefer to learn new skills at their own pace from the comforts
of their drawing rooms.
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated,
we worked our way to adding fresh tutorials to our repository which now proudly flaunts
a wealth of tutorials and allied articles on topics ranging from programming languages
to web designing to academics and much more.
Đọc từng đoạn
Chúng ta có thể đọc một đoạn văn cụ thể từ tài liệu word bằng thuộc tính đoạn văn. Trong ví dụ dưới đây, chúng tôi chỉ đọc đoạn thứ hai từ tài liệu word.
import docx
doc = docx.Document('path\Tutorialspoint.docx')
print len(doc.paragraphs)
print doc.paragraphs[2].text
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
The journey commenced with a single tutorial on HTML in 2006 and elated by the response
it generated, we worked our way to adding fresh tutorials to our repository
which now proudly flaunts a wealth of tutorials and allied articles on topics
ranging from programming languages to web designing to academics and much more.