Khai thác dữ liệu - Khai thác dữ liệu văn bản

Cơ sở dữ liệu văn bản bao gồm một bộ sưu tập tài liệu khổng lồ. Họ thu thập những thông tin này từ một số nguồn như tin bài, sách, thư viện số, thư điện tử, trang web, v.v. Do lượng thông tin ngày càng tăng, cơ sở dữ liệu văn bản đang phát triển nhanh chóng. Trong nhiều cơ sở dữ liệu văn bản, dữ liệu là bán cấu trúc.

Ví dụ: một tài liệu có thể chứa một vài trường có cấu trúc, chẳng hạn như tiêu đề, tác giả, ngày xuất bản, v.v. Nhưng cùng với dữ liệu cấu trúc, tài liệu cũng chứa các thành phần văn bản phi cấu trúc, chẳng hạn như phần tóm tắt và nội dung. Nếu không biết những gì có thể có trong tài liệu, rất khó để hình thành các truy vấn hiệu quả để phân tích và trích xuất thông tin hữu ích từ dữ liệu. Người dùng yêu cầu các công cụ để so sánh các tài liệu và xếp hạng mức độ quan trọng và mức độ liên quan của chúng. Do đó, khai thác văn bản đã trở nên phổ biến và là một chủ đề thiết yếu trong khai thác dữ liệu.

Truy xuất thông tin

Truy xuất thông tin liên quan đến việc truy xuất thông tin từ một số lượng lớn các tài liệu dạng văn bản. Một số hệ thống cơ sở dữ liệu thường không xuất hiện trong các hệ thống truy xuất thông tin vì cả hai đều xử lý các loại dữ liệu khác nhau. Ví dụ về hệ thống truy xuất thông tin bao gồm:

Hệ thống danh mục Thư viện Trực tuyến
Hệ thống quản lý tài liệu trực tuyến
Hệ thống tìm kiếm trên web, v.v.

Note- Vấn đề chính trong một hệ thống truy xuất thông tin là xác định vị trí các tài liệu liên quan trong bộ sưu tập tài liệu dựa trên truy vấn của người dùng. Loại truy vấn của người dùng này bao gồm một số từ khóa mô tả nhu cầu thông tin.

Trong các vấn đề tìm kiếm như vậy, người dùng chủ động lấy thông tin liên quan ra khỏi bộ sưu tập. Điều này phù hợp khi người dùng có nhu cầu thông tin đột xuất, tức là nhu cầu ngắn hạn. Nhưng nếu người dùng có nhu cầu thông tin lâu dài, thì hệ thống truy xuất cũng có thể chủ động đẩy bất kỳ mục thông tin nào mới đến cho người dùng.

Loại truy cập thông tin này được gọi là Lọc thông tin. Và các hệ thống tương ứng được gọi là Hệ thống lọc hoặc Hệ thống giới thiệu.

Các biện pháp cơ bản để truy xuất văn bản

Chúng ta cần kiểm tra tính chính xác của một hệ thống khi nó truy xuất một số tài liệu trên cơ sở đầu vào của người dùng. Đặt tập hợp tài liệu có liên quan đến truy vấn được ký hiệu là {Có liên quan} và tập hợp tài liệu được truy xuất là {Đã truy xuất}. Tập hợp các tài liệu có liên quan và được truy xuất có thể được ký hiệu là {Có liên quan} ∩ {Đã lấy về}. Điều này có thể được thể hiện dưới dạng biểu đồ Venn như sau:

Có ba thước đo cơ bản để đánh giá chất lượng của việc truy xuất văn bản -

Precision
Recall
F-score

Độ chính xác

Độ chính xác là phần trăm tài liệu được truy xuất trên thực tế có liên quan đến truy vấn. Độ chính xác có thể được định nghĩa là -

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Gợi lại

Truy xuất là phần trăm tài liệu có liên quan đến truy vấn và trên thực tế đã được truy xuất. Thu hồi được định nghĩa là -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

Điểm F

Điểm F là sự đánh đổi thường được sử dụng. Hệ thống truy xuất thông tin thường cần đánh đổi độ chính xác hoặc ngược lại. Điểm F được định nghĩa là giá trị trung bình hài của sự thu hồi hoặc độ chính xác như sau:

F-score = recall x precision / (recall + precision) / 2