Il modo migliore per leggere PPTX con javascript
Ho fatto alcune ricerche e sto cercando di capire qual è il modo standard per leggere un pptxcon JavaScript / Typescript nel browser.
Molte delle librerie che ho trovato sono principalmente per nodi come textract . Ho trovato una libreria chiamata JS-PPTX, ma l'ultimo commit è stato effettuato nel 2016, quindi non è molto promettente.
La maggior parte delle librerie riguarda la creazione di una Power Pointpresentazione, ma ciò di cui ho veramente bisogno è essere in grado di leggere il file e identificare il contenuto delle diapositive.
Sono felice di leggere il formato del file raw e provare ad analizzarlo se è migliore, ma ho solo bisogno di un modo per caricare e leggere il file con FileReader Api .
O se c'è un modo per convertire il pptx in un altro formato che è più facile da leggere sarei in quello. Una libreria che ho trovato si chiama PPTX2HTML , ma quest'ultimo commit è del 2017.
Ho trovato questo post di Stack Overflow , ma è da 2010quindi spero che ci sia un'evoluzione del pensiero.
Risposte
PPTX ( vedere le specifiche qui ) è un formato di file compresso basato su XML che fa parte della specifica Microsoft Office Open XML (nota anche come OOXML o OpenXML), introdotta come parte di Microsoft Office 2007 e versioni successive.
I browser possono analizzare XML, quindi probabilmente devi:
- leggi il file con FileReader ,
- decomprimerlo in qualche modo
- analizzalo con DOMParser
- magari trasformalo con XSLT