Python-Word 문서 처리
워드 문서를 읽으려면 docx라는 모듈의 도움을받습니다. 먼저 아래와 같이 docx를 설치합니다. 그런 다음 docx 모듈의 다른 기능을 사용하여 전체 파일을 단락별로 읽는 프로그램을 작성하십시오.
아래 명령을 사용하여 docx 모듈을 환경으로 가져옵니다.
pip install docx
아래 예제에서는 각 줄을 단락에 추가하고 마지막으로 모든 단락 텍스트를 인쇄하여 단어 문서의 내용을 읽습니다.
import docx
def readtxt(filename):
doc = docx.Document(filename)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
return '\n'.join(fullText)
print (readtxt('path\Tutorialspoint.docx'))
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.
Tutorials Point originated from the idea that there exists a class of readers who respond
better to online content and prefer to learn new skills at their own pace from the comforts
of their drawing rooms.
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated,
we worked our way to adding fresh tutorials to our repository which now proudly flaunts
a wealth of tutorials and allied articles on topics ranging from programming languages
to web designing to academics and much more.
개별 단락 읽기
paragraphs 속성을 사용하여 단어 문서에서 특정 단락을 읽을 수 있습니다. 아래 예에서는 문서라는 단어의 두 번째 단락 만 읽었습니다.
import docx
doc = docx.Document('path\Tutorialspoint.docx')
print len(doc.paragraphs)
print doc.paragraphs[2].text
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.
The journey commenced with a single tutorial on HTML in 2006 and elated by the response
it generated, we worked our way to adding fresh tutorials to our repository
which now proudly flaunts a wealth of tutorials and allied articles on topics
ranging from programming languages to web designing to academics and much more.