Il modo migliore per leggere PPTX con javascript

Nov 21 2020

Ho fatto alcune ricerche e sto cercando di capire qual è il modo standard per leggere un pptxcon JavaScript / Typescript nel browser.

Molte delle librerie che ho trovato sono principalmente per nodi come textract . Ho trovato una libreria chiamata JS-PPTX, ma l'ultimo commit è stato effettuato nel 2016, quindi non è molto promettente.

La maggior parte delle librerie riguarda la creazione di una Power Pointpresentazione, ma ciò di cui ho veramente bisogno è essere in grado di leggere il file e identificare il contenuto delle diapositive.

Sono felice di leggere il formato del file raw e provare ad analizzarlo se è migliore, ma ho solo bisogno di un modo per caricare e leggere il file con FileReader Api .

O se c'è un modo per convertire il pptx in un altro formato che è più facile da leggere sarei in quello. Una libreria che ho trovato si chiama PPTX2HTML , ma quest'ultimo commit è del 2017.

Ho trovato questo post di Stack Overflow , ma è da 2010quindi spero che ci sia un'evoluzione del pensiero.

Risposte

Kosh Nov 21 2020 at 09:27

PPTX ( vedere le specifiche qui ) è un formato di file compresso basato su XML che fa parte della specifica Microsoft Office Open XML (nota anche come OOXML o OpenXML), introdotta come parte di Microsoft Office 2007 e versioni successive.

I browser possono analizzare XML, quindi probabilmente devi:

  1. leggi il file con FileReader ,
  2. decomprimerlo in qualche modo
  3. analizzalo con DOMParser
  4. magari trasformalo con XSLT