Cách tốt nhất để đọc PPTX với javascript
Tôi đã thực hiện một số nghiên cứu và tôi đang cố gắng hiểu cách tiêu chuẩn để đọc a pptxbằng JavaScript / Typescript trong trình duyệt là gì.
Rất nhiều thư viện tôi đã tìm thấy chủ yếu dành cho các nút như textract . Tôi đã tìm thấy một thư viện có tên JS-PPTX nhưng cam kết cuối cùng được thực hiện vào năm 2016 nên điều đó không quá hứa hẹn.
Hầu hết các thư viện là để tạo một Power Pointbản trình bày, nhưng những gì tôi thực sự cần làm là có thể đọc tệp và xác định nội dung của các trang trình bày.
Tôi rất vui khi đọc định dạng tệp thô và cố gắng phân tích cú pháp nếu điều đó tốt hơn, nhưng tôi chỉ cần một cách tải lên và đọc tệp bằng FileReader Api .
Hoặc nếu có cách nào để chuyển đổi pptx sang một định dạng khác dễ đọc hơn, tôi sẽ làm như vậy. Một thư viện tôi đã tìm thấy có tên PPTX2HTML , nhưng bản cam kết cuối cùng này là từ năm 2017.
Tôi đã tìm thấy bài đăng Stack Overflow này , nhưng nó xuất phát từ 2010đó nên tôi hy vọng có một sự phát triển của suy nghĩ.
Trả lời
PPTX ( xem thông số kỹ thuật tại đây ) là định dạng tệp nén, dựa trên XML, là một phần của đặc tả Microsoft Office Open XML (còn được gọi là OOXML hoặc OpenXML), được giới thiệu như một phần của Microsoft Office 2007 trở lên.
Các trình duyệt có thể phân tích cú pháp XML, vì vậy bạn có thể phải:
- đọc tệp bằng FileReader ,
- giải nén nó bằng cách nào đó
- phân tích cú pháp với DOMParser
- có thể biến đổi nó với XSLT