javascriptでPPTXを読むための最良の方法

Nov 21 2020

私はいくつかの調査を行っておりpptx、ブラウザでJavaScript / Typescriptを使用してを読み取る標準的な方法を理解しようとしています。

私が見つけたライブラリの多くは、主にtextractのようなノード用です。JS-PPTXというライブラリを1つ見つけましたが、最後のコミットは2016年に行われたため、あまり有望ではありません。

ほとんどのライブラリはPower Pointプレゼンテーションの作成に関するものですが、私が本当に行う必要があるのは、ファイルを読み取ってスライドの内容を識別できるようにすることです。

生のファイル形式を読んで、それがより良い場合は解析を試みて満足していますが、FileReaderApiを使用してファイルをアップロードして読み取る方法が必要です。

または、pptxを読みやすい別の形式に変換する方法があれば、私はそれになります。私が見つけた1つのライブラリはPPTX2HTMLと呼ばれていますが、この最後のコミットは2017年のものです。

私はこのStackOverflowの投稿を見つけましたが、それはからのものな2010ので、思考の進化があることを願っています。

回答

Kosh Nov 21 2020 at 09:27

PPTX(ここの仕様を参照)は、Microsoft Office2007以降の一部として導入されたMicrosoftOffice Open XML(OOXMLまたはOpenXMLとも呼ばれます)仕様の一部である、zip形式のXMLベースのファイル形式です。

ブラウザはXMLを解析できるため、おそらく次のことを行う必要があります。

  1. FileReaderでファイルを読み取り、
  2. なんとか解凍
  3. DOMParserで解析します
  4. 多分XSLTでそれを変換します