Najlepszy sposób czytania PPTX z javascript

Nov 21 2020

Przeprowadziłem pewne badania i próbuję zrozumieć, jaki jest standardowy sposób czytania pptxz JavaScript / Typescript w przeglądarce.

Wiele bibliotek, które znalazłem, dotyczy głównie węzłów, takich jak textract . Znalazłem jedną bibliotekę o nazwie JS-PPTX, ale ostatnie zatwierdzenie zostało wykonane w 2016 roku, więc nie jest to zbyt obiecujące.

Większość bibliotek zajmuje się tworzeniem Power Pointprezentacji, ale to, co naprawdę potrzebuję, to odczytać plik i zidentyfikować zawartość slajdów.

Z przyjemnością czytam surowy format pliku i próbuję go przeanalizować, jeśli to jest lepsze, ale potrzebuję tylko sposobu, aby przesłać i przeczytać plik za pomocą FileReader Api .

Lub jeśli istnieje sposób na przekonwertowanie pptx na inny format, który jest łatwiejszy do odczytania, byłbym w to. Znalazłem bibliotekę o nazwie PPTX2HTML , ale ostatnie zatwierdzenie pochodzi z 2017 roku.

Znalazłem ten post dotyczący przepełnienia stosu , ale pochodzi on z, 2010więc mam nadzieję, że nastąpiła ewolucja myśli.

Odpowiedzi

Kosh Nov 21 2020 at 09:27

PPTX ( patrz specyfikacja tutaj ) to spakowany format pliku oparty na XML, który jest częścią specyfikacji Microsoft Office Open XML (znanej również jako OOXML lub OpenXML), wprowadzonej jako część pakietu Microsoft Office 2007 i nowszych.

Przeglądarki mogą analizować XML, więc prawdopodobnie musisz:

  1. przeczytaj plik za pomocą FileReader ,
  2. jakoś go rozpakuj
  3. przeanalizuj go przy użyciu DOMParser
  4. może przekształcić go za pomocą XSLT