NLP - Truy xuất Thông tin
Truy xuất thông tin (IR) có thể được định nghĩa là một chương trình phần mềm liên quan đến việc tổ chức, lưu trữ, truy xuất và đánh giá thông tin từ các kho tài liệu, đặc biệt là thông tin dạng văn bản. Hệ thống hỗ trợ người dùng tìm kiếm thông tin họ yêu cầu nhưng nó không trả lại câu trả lời của các câu hỏi một cách rõ ràng. Nó thông báo sự tồn tại và vị trí của các tài liệu có thể bao gồm thông tin cần thiết. Các tài liệu đáp ứng yêu cầu của người dùng được gọi là tài liệu liên quan. Một hệ thống IR hoàn hảo sẽ chỉ lấy các tài liệu có liên quan.
Với sự trợ giúp của sơ đồ sau, chúng ta có thể hiểu quá trình truy xuất thông tin (IR) -
Từ sơ đồ trên rõ ràng là người dùng cần thông tin sẽ phải hình thành một yêu cầu dưới dạng truy vấn bằng ngôn ngữ tự nhiên. Sau đó, hệ thống IR sẽ phản hồi bằng cách truy xuất đầu ra có liên quan, dưới dạng tài liệu, về thông tin được yêu cầu.
Vấn đề cổ điển trong hệ thống truy xuất thông tin (IR)
Mục tiêu chính của nghiên cứu IR là phát triển một mô hình để lấy thông tin từ các kho tài liệu. Ở đây, chúng ta sẽ thảo luận về một vấn đề cổ điển, có tên làad-hoc retrieval problem, liên quan đến hệ thống IR.
Trong truy xuất đặc biệt, người dùng phải nhập truy vấn bằng ngôn ngữ tự nhiên mô tả thông tin cần thiết. Sau đó hệ thống IR sẽ trả về các tài liệu cần thiết liên quan đến thông tin mong muốn. Ví dụ: giả sử chúng ta đang tìm kiếm thứ gì đó trên Internet và nó cung cấp một số trang chính xác có liên quan theo yêu cầu của chúng ta nhưng cũng có thể có một số trang không liên quan. Điều này là do sự cố truy xuất đặc biệt.
Các khía cạnh của Truy xuất Ad-hoc
Tiếp theo là một số khía cạnh của truy xuất đặc biệt được giải quyết trong nghiên cứu IR -
Người dùng với sự trợ giúp của phản hồi về mức độ liên quan có thể cải thiện công thức ban đầu của truy vấn như thế nào?
Làm thế nào để thực hiện hợp nhất cơ sở dữ liệu, tức là, làm thế nào kết quả từ các cơ sở dữ liệu văn bản khác nhau có thể được hợp nhất thành một tập kết quả?
Làm thế nào để xử lý dữ liệu bị hỏng một phần? Những mô hình nào là thích hợp cho cùng một?
Mô hình Truy xuất Thông tin (IR)
Về mặt toán học, các mô hình được sử dụng trong nhiều lĩnh vực khoa học nhằm mục đích hiểu được một số hiện tượng trong thế giới thực. Mô hình truy xuất thông tin dự đoán và giải thích những gì người dùng sẽ tìm thấy có liên quan đến truy vấn nhất định. Mô hình IR về cơ bản là một mẫu xác định các khía cạnh được đề cập ở trên của thủ tục truy xuất và bao gồm những điều sau:
Một mô hình cho các tài liệu.
Một mô hình cho các truy vấn.
Một hàm đối sánh so sánh các truy vấn với tài liệu.
Về mặt toán học, một mô hình truy xuất bao gồm:
D - Đại diện cho các tài liệu.
R - Biểu diễn cho các truy vấn.
F - Khung mô hình cho D, Q cùng với mối quan hệ giữa chúng.
R (q,di)- Một chức năng tương tự sắp xếp các tài liệu liên quan đến truy vấn. Nó còn được gọi là xếp hạng.
Các loại mô hình truy xuất thông tin (IR)
Mô hình mô hình thông tin (IR) có thể được phân loại thành ba mô hình sau:
Mô hình IR cổ điển
Đây là mô hình IR đơn giản nhất và dễ thực hiện. Mô hình này dựa trên kiến thức toán học đã được dễ dàng nhận ra và dễ hiểu. Boolean, Vector và Probabilistic là ba mô hình IR cổ điển.
Mô hình IR không cổ điển
Nó hoàn toàn ngược lại với mô hình IR cổ điển. Loại mô hình IR như vậy dựa trên các nguyên tắc khác với tính tương tự, xác suất, các phép toán Boolean. Mô hình logic thông tin, mô hình lý thuyết tình huống và các mô hình tương tác là những ví dụ của mô hình IR phi cổ điển.
Mô hình IR thay thế
Đó là sự nâng cao của mô hình IR cổ điển sử dụng một số kỹ thuật cụ thể từ một số lĩnh vực khác. Mô hình cụm, mô hình mờ và mô hình chỉ mục ngữ nghĩa tiềm ẩn (LSI) là ví dụ của mô hình IR thay thế.
Tính năng thiết kế của hệ thống truy xuất thông tin (IR)
Bây giờ chúng ta hãy tìm hiểu về các tính năng thiết kế của hệ thống IR -
Chỉ mục đảo ngược
Cấu trúc dữ liệu chính của hầu hết các hệ thống IR là ở dạng chỉ mục đảo ngược. Chúng ta có thể định nghĩa một chỉ mục đảo ngược như một cấu trúc dữ liệu liệt kê, cho mọi từ, tất cả các tài liệu có chứa nó và tần suất xuất hiện trong tài liệu. Nó giúp bạn dễ dàng tìm kiếm 'lượt truy cập' của một từ truy vấn.
Dừng loại bỏ từ
Từ dừng là những từ có tần suất cao được cho là không hữu ích cho việc tìm kiếm. Chúng có ít trọng lượng ngữ nghĩa hơn. Tất cả những từ như vậy nằm trong một danh sách gọi là danh sách dừng. Ví dụ, các mạo từ “a”, “an”, “the” và các giới từ như “in”, “of”, “for”, “at”, v.v. là những ví dụ về từ dừng. Kích thước của chỉ mục đảo ngược có thể được giảm đáng kể bằng danh sách dừng. Theo định luật Zipf, một danh sách dừng bao gồm vài chục từ làm giảm kích thước của chỉ mục đảo ngược gần một nửa. Mặt khác, đôi khi việc loại bỏ từ dừng có thể gây ra việc loại bỏ cụm từ hữu ích cho việc tìm kiếm. Ví dụ, nếu chúng ta loại bỏ bảng chữ cái “A” khỏi “Vitamin A” thì nó sẽ không có ý nghĩa gì.
Gốc
Stemming, một dạng đơn giản của phân tích hình thái học, là quá trình heuristic để rút ra dạng cơ sở của từ bằng cách cắt bỏ các đầu của từ. Ví dụ, các từ cười, cười, cười sẽ bắt nguồn từ gốc từ cười.
Trong các phần tiếp theo của chúng tôi, chúng tôi sẽ thảo luận về một số mô hình IR quan trọng và hữu ích.
Mô hình Boolean
Đây là mô hình truy xuất thông tin (IR) lâu đời nhất. Mô hình dựa trên lý thuyết tập hợp và đại số Boolean, trong đó các tài liệu là các tập hợp các thuật ngữ và truy vấn là các biểu thức Boolean trên các số hạng. Mô hình Boolean có thể được định nghĩa là:
D- Một tập hợp các từ, tức là các thuật ngữ lập chỉ mục có trong một tài liệu. Ở đây, mỗi thuật ngữ đều có mặt (1) hoặc vắng mặt (0).
Q - Một biểu thức Boolean, trong đó các thuật ngữ là các thuật ngữ chỉ mục và toán tử là các tích logic - AND, tổng logic - HOẶC và hiệu số logic - KHÔNG
F - Đại số Boolean trên các bộ điều khoản cũng như trên các bộ tài liệu
Nếu chúng ta nói về phản hồi về mức độ liên quan, thì trong mô hình Boolean IR, dự đoán về mức độ liên quan có thể được định nghĩa như sau:
R - Một tài liệu được dự đoán là có liên quan đến biểu thức truy vấn nếu và chỉ khi nó thỏa mãn biểu thức truy vấn là -
((˅) ˄ ˄ ˜ ℎ)
Chúng ta có thể giải thích mô hình này bằng một thuật ngữ truy vấn như một định nghĩa rõ ràng về một bộ tài liệu.
Ví dụ, thuật ngữ truy vấn “economic” xác định bộ tài liệu được lập chỉ mục với thuật ngữ “economic”.
Bây giờ, kết quả sẽ là gì sau khi kết hợp các thuật ngữ với Toán tử Boolean AND? Nó sẽ xác định một bộ tài liệu nhỏ hơn hoặc bằng bộ tài liệu của bất kỳ thuật ngữ đơn lẻ nào. Ví dụ: truy vấn với các điều khoản“social” và “economic”sẽ tạo ra bộ tài liệu gồm các tài liệu được lập chỉ mục với cả hai điều khoản. Nói cách khác, tập hợp tài liệu với giao của cả hai tập hợp.
Bây giờ, kết quả sẽ là gì sau khi kết hợp các thuật ngữ với toán tử Boolean OR? Nó sẽ xác định một bộ tài liệu lớn hơn hoặc bằng bộ tài liệu của bất kỳ thuật ngữ đơn lẻ nào. Ví dụ: truy vấn với các điều khoản“social” hoặc là “economic” sẽ tạo ra bộ tài liệu gồm các tài liệu được lập chỉ mục với thuật ngữ “social” hoặc là “economic”. Nói cách khác, tập hợp tài liệu với sự kết hợp của cả hai tập hợp.
Ưu điểm của Chế độ Boolean
Các ưu điểm của mô hình Boolean như sau:
Mô hình đơn giản nhất, dựa trên các tập hợp.
Dễ hiểu và dễ thực hiện.
Nó chỉ lấy các kết quả phù hợp chính xác
Nó mang lại cho người dùng cảm giác kiểm soát được hệ thống.
Nhược điểm của Mô hình Boolean
Các nhược điểm của mô hình Boolean như sau:
Hàm tương tự của mô hình là Boolean. Do đó, sẽ không có trận đấu từng phần. Điều này có thể gây khó chịu cho người dùng.
Trong mô hình này, việc sử dụng toán tử Boolean có nhiều ảnh hưởng hơn một từ quan trọng.
Ngôn ngữ truy vấn là biểu cảm, nhưng nó cũng phức tạp.
Không có xếp hạng cho các tài liệu được truy xuất.
Mô hình không gian vector
Do những nhược điểm trên của mô hình Boolean, Gerard Salton và các đồng nghiệp của ông đã đề xuất một mô hình dựa trên tiêu chí tương tự của Luhn. Tiêu chí tương tự do Luhn đưa ra tuyên bố, “càng có nhiều sự đồng ý trong các phần tử nhất định và sự phân bố của chúng, thì xác suất của chúng đại diện cho thông tin tương tự càng cao”.
Hãy xem xét những điểm quan trọng sau để hiểu thêm về Mô hình không gian vectơ -
Các biểu diễn chỉ mục (tài liệu) và các truy vấn được coi là các vectơ được nhúng trong không gian Euclid chiều cao.
Độ tương tự của một vectơ tài liệu với một vectơ truy vấn thường là cosin của góc giữa chúng.
Công thức đo độ tương đồng cosine
Cosine là một sản phẩm chấm chuẩn hóa, có thể được tính toán với sự trợ giúp của công thức sau:
$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \:. Q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2} $$
$$ Điểm \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: khi \: d = q $$
$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: when \: d \: and \: q \: share \: no \: items $$
Biểu diễn không gian vectơ với truy vấn và tài liệu
Truy vấn và tài liệu được biểu diễn bằng không gian vectơ hai chiều. Các điều khoản làcar và insurance. Có một truy vấn và ba tài liệu trong không gian vectơ.
Tài liệu được xếp hạng hàng đầu đáp ứng các điều khoản xe hơi và bảo hiểm sẽ là tài liệu d2 bởi vì góc giữa q và d2Là nhỏ nhất. Lý do đằng sau điều này là cả hai khái niệm xe hơi và bảo hiểm đều nổi bật ở d 2 và do đó có trọng số cao. Mặt khác,d1 và d3 cũng đề cập đến cả hai thuật ngữ nhưng trong mỗi trường hợp, một trong số chúng không phải là thuật ngữ quan trọng trong tài liệu.
Trọng số kỳ hạn
Trọng số thuật ngữ có nghĩa là trọng số của các thuật ngữ trong không gian vectơ. Trọng số của thuật ngữ càng cao thì tác động của thuật ngữ đối với cosin càng lớn. Nên gán nhiều trọng số hơn cho các điều khoản quan trọng hơn trong mô hình. Bây giờ câu hỏi đặt ra ở đây là làm thế nào chúng ta có thể mô hình hóa điều này.
Một cách để làm điều này là đếm các từ trong một tài liệu làm trọng số của nó. Tuy nhiên, bạn có nghĩ rằng nó sẽ là phương pháp hiệu quả?
Một phương pháp khác, hiệu quả hơn, là sử dụng term frequency (tfij), document frequency (dfi) và collection frequency (cfi).
Tần suất kỳ hạn (tf ij )
Nó có thể được định nghĩa là số lần xuất hiện của wi trong dj. Thông tin được thu thập theo tần suất thuật ngữ là mức độ nổi bật của một từ trong tài liệu đã cho hoặc nói cách khác, chúng ta có thể nói rằng tần suất thuật ngữ càng cao thì từ đó càng mô tả tốt nội dung của tài liệu đó.
Tần suất tài liệu (df i )
Nó có thể được định nghĩa là tổng số tài liệu trong bộ sưu tập mà trong đó tôi xuất hiện. Nó là một chỉ số của tính thông tin. Các từ tập trung vào ngữ nghĩa sẽ xuất hiện nhiều lần trong tài liệu không giống như các từ không tập trung về ngữ nghĩa.
Tần suất thu thập (cf i )
Nó có thể được định nghĩa là tổng số lần xuất hiện của wi trong bộ sưu tập.
Về mặt toán học, $ df_ {i} \ leq cf_ {i} \: và \: \ sum_ {j} tf_ {ij} = cf_ {i} $
Các dạng trọng số tần suất tài liệu
Bây giờ chúng ta hãy tìm hiểu về các dạng khác nhau của trọng số tần suất tài liệu. Các hình thức được mô tả dưới đây -
Yếu tố tần suất thời hạn
Đây cũng được phân loại là yếu tố tần suất thuật ngữ, có nghĩa là nếu một thuật ngữ t thường xuất hiện trong một tài liệu sau đó là một truy vấn chứa tnên lấy tài liệu đó. Chúng ta có thể kết hợp từterm frequency (tfij) và document frequency (dfi) thành một trọng lượng duy nhất như sau:
$$ weight \ left (i, j \ right) = \ begin {case} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {trường hợp } $$
Ở đây N là tổng số tài liệu.
Tần suất tài liệu nghịch đảo (idf)
Đây là một dạng khác của trọng số tần suất tài liệu và thường được gọi là trọng số idf hoặc trọng số tần suất tài liệu nghịch đảo. Điểm quan trọng của trọng số idf là sự khan hiếm của thuật ngữ trên toàn bộ tập hợp là thước đo tầm quan trọng của nó và tầm quan trọng tỷ lệ nghịch với tần suất xuất hiện.
Về mặt toán học,
$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right) $$
$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$
Đây,
N = tài liệu trong bộ sưu tập
n t = tài liệu chứa thuật ngữ t
Cải tiến Truy vấn Người dùng
Mục tiêu chính của bất kỳ hệ thống truy xuất thông tin nào phải là tính chính xác - để tạo ra các tài liệu liên quan theo yêu cầu của người dùng. Tuy nhiên, câu hỏi đặt ra ở đây là làm cách nào chúng ta có thể cải thiện kết quả đầu ra bằng cách cải thiện phong cách hình thành truy vấn của người dùng. Chắc chắn, đầu ra của bất kỳ hệ thống IR nào đều phụ thuộc vào truy vấn của người dùng và truy vấn được định dạng tốt sẽ tạo ra kết quả chính xác hơn. Người dùng có thể cải thiện truy vấn của mình với sự trợ giúp củarelevance feedback, một khía cạnh quan trọng của bất kỳ mô hình IR nào.
Phản hồi về mức độ liên quan
Phản hồi về mức độ liên quan lấy kết quả được trả về ban đầu từ truy vấn đã cho. Đầu ra ban đầu này có thể được sử dụng để thu thập thông tin người dùng và để biết liệu đầu ra đó có liên quan để thực hiện một truy vấn mới hay không. Các phản hồi có thể được phân loại như sau:
Phản hồi rõ ràng
Nó có thể được định nghĩa là phản hồi thu được từ những người đánh giá mức độ phù hợp. Những người đánh giá này cũng sẽ chỉ ra mức độ liên quan của một tài liệu được lấy từ truy vấn. Để cải thiện hiệu suất truy xuất truy vấn, thông tin phản hồi về mức độ liên quan cần được nội suy với truy vấn ban đầu.
Người đánh giá hoặc những người dùng khác của hệ thống có thể chỉ ra mức độ liên quan một cách rõ ràng bằng cách sử dụng các hệ thống mức độ liên quan sau:
Binary relevance system - Hệ thống phản hồi về mức độ liên quan này chỉ ra rằng một tài liệu có liên quan (1) hoặc không liên quan (0) cho một truy vấn nhất định.
Graded relevance system- Hệ thống phản hồi về mức độ phù hợp được phân loại cho biết mức độ liên quan của một tài liệu, đối với một truy vấn nhất định, trên cơ sở phân loại bằng cách sử dụng số, chữ cái hoặc mô tả. Mô tả có thể như "không liên quan", "hơi liên quan", "rất liên quan" hoặc "có liên quan".
Phản hồi ngầm
Đó là phản hồi được suy ra từ hành vi của người dùng. Hành vi bao gồm khoảng thời gian mà người dùng đã dành để xem tài liệu, tài liệu nào được chọn để xem và tài liệu nào không, các hành động duyệt và cuộn trang, v.v. Một trong những ví dụ tốt nhất về phản hồi ngầm làdwell time, là thước đo thời gian người dùng dành để xem trang được liên kết đến trong kết quả tìm kiếm.
Phản hồi giả
Nó còn được gọi là phản hồi mù. Nó cung cấp một phương pháp để phân tích cục bộ tự động. Phần thủ công của phản hồi về mức độ liên quan được tự động hóa với sự trợ giúp của phản hồi về mức độ liên quan của Pseudo để người dùng được cải thiện hiệu suất truy xuất mà không cần tương tác mở rộng. Ưu điểm chính của hệ thống phản hồi này là nó không yêu cầu người đánh giá như trong hệ thống phản hồi liên quan rõ ràng.
Hãy xem xét các bước sau để triển khai phản hồi này -
Step 1- Đầu tiên, kết quả trả về bởi truy vấn ban đầu phải được coi là kết quả có liên quan. Phạm vi kết quả phù hợp phải nằm trong 10-50 kết quả hàng đầu.
Step 2 - Bây giờ, hãy chọn 20-30 thuật ngữ hàng đầu từ các tài liệu sử dụng trọng số tần suất thuật ngữ ví dụ (tf) -tần số tài liệu nghịch đảo (idf).
Step 3- Thêm các điều khoản này vào truy vấn và khớp với các tài liệu trả về. Sau đó trả lại các tài liệu liên quan nhất.