Beste Weg, um PPTX mit Javascript zu lesen
Ich habe einige Nachforschungen angestellt und versuche zu verstehen, wie man pptx
mit JavaScript / Typescript im Browser standardmäßig liest .
Viele der Bibliotheken, die ich gefunden habe, sind hauptsächlich für knotenähnliche Texte . Ich habe eine Bibliothek namens JS-PPTX gefunden, aber das letzte Commit wurde 2016 durchgeführt, das ist also nicht besonders vielversprechend.
In den meisten Bibliotheken geht es darum, eine Power Point
Präsentation zu erstellen , aber ich muss wirklich in der Lage sein, die Datei zu lesen und den Inhalt der Folien zu identifizieren.
Ich lese gerne das Rohdateiformat und versuche es zu analysieren, wenn das besser ist, aber ich brauche nur eine Möglichkeit, die Datei mit der FileReader-API hochzuladen und zu lesen .
Oder wenn es eine Möglichkeit gibt, das pptx in ein anderes Format zu konvertieren, das leichter zu lesen ist, wäre ich dabei. Eine Bibliothek, die ich gefunden habe, heißt PPTX2HTML , aber dieses letzte Commit stammt aus dem Jahr 2017.
Ich habe diesen Stapelüberlauf- Beitrag gefunden , aber er stammt von 2010
und ich hoffe, dass es eine Evolution des Denkens gibt.
Antworten
PPTX ( siehe Spezifikation hier ) ist ein komprimiertes XML-basiertes Dateiformat, das Teil der Microsoft Office Open XML-Spezifikation (auch als OOXML oder OpenXML bezeichnet) ist, die als Teil von Microsoft Office 2007 und höher eingeführt wurde.
Browser können XML analysieren, daher müssen Sie wahrscheinlich:
- Lesen Sie die Datei mit FileReader .
- entpacke es irgendwie
- Analysieren Sie es mit DOMParser
- Vielleicht transformieren Sie es mit XSLT