Melhor maneira de ler PPTX com javascript

Nov 21 2020

Tenho feito pesquisas e estou tentando entender qual é a forma padrão de ler um pptxcom JavaScript / Typescript no navegador.

Muitas das bibliotecas que encontrei são principalmente para nós como o textract . Encontrei uma biblioteca chamada JS-PPTX, mas o último commit foi feito em 2016, então não é muito promissor.

A maioria das bibliotecas trata da criação de Power Pointapresentações, mas o que realmente preciso fazer é ser capaz de ler o arquivo e identificar o conteúdo dos slides.

Fico feliz em ler o formato de arquivo bruto e tentar analisá-lo se for melhor, mas eu só preciso fazer o upload e ler o arquivo com a API FileReader .

Ou se houver uma maneira de converter o pptx para outro formato que seja mais fácil de ler, eu ficaria assim. Uma biblioteca que encontrei chamada PPTX2HTML , mas este último commit é de 2017.

Encontrei esta postagem do Stack Overflow , mas é de 2010então, espero que haja uma evolução do pensamento.

Respostas

Kosh Nov 21 2020 at 09:27

PPTX ( consulte a especificação aqui ) é um formato de arquivo compactado baseado em XML que faz parte da especificação Microsoft Office Open XML (também conhecido como OOXML ou OpenXML), introduzida como parte do Microsoft Office 2007 e posterior.

Os navegadores podem analisar XML, então você provavelmente terá que:

  1. leia o arquivo com FileReader ,
  2. descompacte de alguma forma
  3. analise-o com DOMParser
  4. talvez transformá-lo com XSLT