Hai kho lưu trữ Python để trực quan hóa văn bản

Nov 26 2020
Từ được thiết kế tốt đến đáng kinh ngạc cho hình ảnh hóa văn bản Thực sự đáng kinh ngạc là những gì bạn có thể tìm thấy miễn phí trên Internet, đặc biệt là trong các ngôn ngữ lập trình có lượng người dùng lớn như Python. Thật khó tin khi tìm thấy một chủ đề cho vấn đề này trên GitHub được gọi là trực quan hóa văn bản.
Ảnh của @scottwebb từ Unsplash có thêm văn bản của tác giả

Từ được làm tốt đến đáng kinh ngạc cho hình ảnh văn bản

Thực sự đáng kinh ngạc là những gì bạn có thể tìm thấy miễn phí trên Internet, đặc biệt là trong các ngôn ngữ lập trình có cơ sở người dùng lớn như Python. Thật khó tin khi tìm thấy một chủ đề cho vấn đề này trên GitHub được gọi là trực quan hóa văn bản . Tôi nghĩ tôi sẽ kiểm tra hai kho lưu trữ (các) kho được gắn dấu sao nhiều nhất trong chủ đề này, đó là: Texthero và Scattertext.

Texthero

Ngay lập tức, Texthero bắt đầu bằng một phần giới thiệu dễ hiểu.

Nó là tất cả về:

  1. Xử lý trước văn bản.
  2. Sự đại diện.
  3. Hình dung.

“Texthero là một bộ công cụ python để làm việc với tập dữ liệu dựa trên văn bản một cách nhanh chóng và dễ dàng. Texthero rất đơn giản để học và được thiết kế để sử dụng trên gấu trúc. ”

Nó bao gồm các công cụ cho một số khía cạnh:

  • “Tiền xử lý dữ liệu văn bản : nó cung cấp cả các giải pháp ngoại vi nhưng cũng linh hoạt cho các giải pháp tùy chỉnh.
  • Xử lý ngôn ngữ tự nhiên : trích xuất các cụm từ khóa và từ khóa, và nhận dạng thực thể được đặt tên.
  • Biểu diễn văn bản : TF-IDF, tần suất thuật ngữ và nhúng từ tùy chỉnh (wip)
  • Phân tích không gian vectơ : phân cụm (K-mean, Meanshift, DBSCAN và Hierarchical), mô hình hóa chủ đề (wip) và diễn giải.
  • Trực quan hóa văn bản : trực quan hóa không gian vectơ, bản địa hóa vị trí trên bản đồ (wip). ”

Lập luận của họ là khó có thể đối phó với các công cụ NLP khác nhau (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

Đây là lý do tại sao họ phát triển giải pháp của mình.

Cài đặt texthero qua pip:

pip install texthero

Để có hiệu suất nhanh hơn, hãy đảm bảo bạn đã cài đặt phiên bản Spacy> = 2.2. Ngoài ra, hãy đảm bảo rằng bạn có phiên bản python gần đây… ”

Nó có thể trông khá gọn gàng.

Tôi muốn giới thiệu bạn để kiểm tra nó ra! Tôi sẽ thử nó trong dự án của tôi.

Scattertext

Một gói khác là Scattertext . Tôi muốn nói cái này là bổ sung. Ngoài ra, nó khá ấn tượng với một cốt truyện tương tác và nó có thể gọn gàng nếu bạn muốn trình bày thông tin theo cách trực quan hấp dẫn với điều kiện thích hợp cho dữ liệu.

“Một công cụ để tìm các thuật ngữ phân biệt trong kho ngữ liệu và trình bày chúng trong một biểu đồ phân tán HTML, tương tác. Các điểm tương ứng với các điều khoản được dán nhãn có chọn lọc để chúng không trùng lặp với các nhãn hoặc điểm khác. ”

Scattertext có rất nhiều bản demo! Do đó, bạn sẽ tìm thấy rất nhiều ví dụ để thử nghiệm hoặc lấy cảm hứng từ đó.

Nếu bạn có nhiều tài liệu và muốn tần suất hiển thị cũng như tất cả các lần xuất hiện thì điều này có thể khá tuyệt vời.

Hình ảnh trực quan là tương tác và có thể tìm kiếm được. Kiểm tra nó ra ở đây .

Thật là tuyệt vời khi loại công việc này đã được thực hiện và việc nó được chia sẻ trực tuyến sẽ rất hữu ích.

Hy vọng điều này sẽ hữu ích nếu bạn hiện đang làm việc với văn bản.

Bạn có thể đã tự mình tìm thấy điều này, nhưng nếu bạn đang theo dõi cuộc hành trình của tôi, tôi hy vọng bạn đã khám phá ra điều mà trước đây bạn chưa biết.

Đây là # 500daysofAI và bạn đang đọc bài viết 440. Tôi đang viết một bài báo mới về hoặc liên quan đến trí tuệ nhân tạo mỗi ngày trong 500 ngày.