Лучший способ читать PPTX с помощью javascript
Я провел некоторое исследование и пытаюсь понять, каков стандартный способ чтения с pptxпомощью JavaScript / Typescript в браузере.
Многие библиотеки, которые я нашел, в основном предназначены для node, как textract . Я нашел одну библиотеку под названием JS-PPTX, но последний коммит был сделан в 2016 году, так что это не очень многообещающе.
Большинство библиотек предназначены для создания Power Pointпрезентаций, но что мне действительно нужно сделать, так это уметь читать файл и определять содержимое слайдов.
Я счастлив прочитать необработанный формат файла и попытаться разобрать его, если это лучше, но мне просто нужен способ загрузить и прочитать файл с помощью FileReader Api .
Или, если есть способ преобразовать pptx в другой формат, который легче читать, я бы согласился. Я нашел одну библиотеку под названием PPTX2HTML , но последняя фиксация сделана в 2017 году.
Я нашел этот пост о переполнении стека , но 2010я надеюсь, что это эволюция мысли.
Ответы
PPTX ( см. Спецификацию здесь ) - это заархивированный формат файла на основе XML, который является частью спецификации Microsoft Office Open XML (также известной как OOXML или OpenXML), представленной как часть Microsoft Office 2007 и более поздних версий.
Браузеры могут анализировать XML, поэтому вам, вероятно, придется:
- прочтите файл с помощью FileReader ,
- распаковать как- нибудь
- проанализировать его с помощью DOMParser
- возможно преобразовать его с помощью XSLT