자바 스크립트로 PPTX를 읽는 가장 좋은 방법
Nov 21 2020
나는 약간의 조사를 해왔고 pptx
브라우저에서 JavaScript / Typescript 로 읽는 표준 방법이 무엇인지 이해하려고 노력하고 있습니다.
내가 찾은 많은 라이브러리는 주로 textract 와 같은 노드 용 입니다. JS-PPTX 라는 라이브러리 하나를 찾았 지만 마지막 커밋은 2016 년에 만들어 졌으므로 그다지 유망하지 않습니다.
대부분의 라이브러리는 Power Point
프레젠테이션 작성에 관한 것이지만, 제가 정말로해야 할 일은 파일을 읽고 슬라이드의 내용을 식별 할 수있는 것입니다.
원시 파일 형식을 읽고 더 나은 경우 구문 분석을 시도하게되어 기쁘지만 FileReader Api로 파일을 업로드하고 읽는 방법이 필요합니다 .
또는 pptx를 읽기 더 쉬운 다른 형식으로 변환하는 방법이 있다면 그게 될 것입니다. PPTX2HTML 이라는 라이브러리를 찾았 지만이 마지막 커밋은 2017 년입니다.
이 Stack Overflow 게시물을 찾았 지만 2010
생각의 진화가 있기를 바랍니다.
답변
Kosh Nov 21 2020 at 09:27
PPTX ( 여기에서 사양 참조 )는 Microsoft Office 2007 이상의 일부로 도입 된 Microsoft Office Open XML (OOXML 또는 OpenXML이라고도 함) 사양의 일부인 압축 된 XML 기반 파일 형식입니다.
브라우저는 XML을 구문 분석 할 수 있으므로 다음을 수행해야합니다.
- FileReader로 파일 읽기 ,
- 어떻게 든 압축을 풀다
- DOMParser로 구문 분석
- XSLT로 변환 할 수 있습니다.