Лучший способ читать PPTX с помощью javascript

Nov 21 2020

Я провел некоторое исследование и пытаюсь понять, каков стандартный способ чтения с pptxпомощью JavaScript / Typescript в браузере.

Многие библиотеки, которые я нашел, в основном предназначены для node, как textract . Я нашел одну библиотеку под названием JS-PPTX, но последний коммит был сделан в 2016 году, так что это не очень многообещающе.

Большинство библиотек предназначены для создания Power Pointпрезентаций, но что мне действительно нужно сделать, так это уметь читать файл и определять содержимое слайдов.

Я счастлив прочитать необработанный формат файла и попытаться разобрать его, если это лучше, но мне просто нужен способ загрузить и прочитать файл с помощью FileReader Api .

Или, если есть способ преобразовать pptx в другой формат, который легче читать, я бы согласился. Я нашел одну библиотеку под названием PPTX2HTML , но последняя фиксация сделана в 2017 году.

Я нашел этот пост о переполнении стека , но 2010я надеюсь, что это эволюция мысли.

Ответы

Kosh Nov 21 2020 at 09:27

PPTX ( см. Спецификацию здесь ) - это заархивированный формат файла на основе XML, который является частью спецификации Microsoft Office Open XML (также известной как OOXML или OpenXML), представленной как часть Microsoft Office 2007 и более поздних версий.

Браузеры могут анализировать XML, поэтому вам, вероятно, придется:

  1. прочтите файл с помощью FileReader ,
  2. распаковать как- нибудь
  3. проанализировать его с помощью DOMParser
  4. возможно преобразовать его с помощью XSLT