Xử lý diễn văn ngôn ngữ tự nhiên

Bài toán khó nhất của AI là xử lý ngôn ngữ tự nhiên bằng máy tính hay nói cách khác là xử lý ngôn ngữ tự nhiên là bài toán khó nhất của trí tuệ nhân tạo. Nếu chúng ta nói về các vấn đề chính trong NLP, thì một trong những vấn đề chính trong NLP là xử lý diễn ngôn - xây dựng lý thuyết và mô hình về cách các lời nói kết hợp với nhau để hình thành.coherent discourse. Trên thực tế, ngôn ngữ luôn bao gồm các nhóm câu được sắp xếp, cấu trúc và mạch lạc hơn là những câu tách biệt và không liên quan như phim. Những nhóm câu mạch lạc này được gọi là diễn ngôn.

Khái niệm về mạch lạc

Tính mạch lạc và cấu trúc diễn ngôn liên kết với nhau theo nhiều cách. Tính mạch lạc, cùng với tính chất của văn bản tốt, được sử dụng để đánh giá chất lượng đầu ra của hệ thống tạo ngôn ngữ tự nhiên. Câu hỏi đặt ra ở đây là nó có ý nghĩa gì đối với một văn bản mạch lạc? Giả sử chúng ta thu thập một câu từ mỗi trang báo, thì đó sẽ là một bài nghị luận? Dĩ nhiên là không. Đó là vì những câu này không thể hiện sự mạch lạc. Văn nghị luận mạch lạc phải có các tính chất sau:

Mối quan hệ mạch lạc giữa các phát ngôn

Diễn ngôn sẽ mạch lạc nếu nó có các mối liên hệ có ý nghĩa giữa các phát ngôn của nó. Thuộc tính này được gọi là quan hệ mạch lạc. Ví dụ, phải có một số loại giải thích để biện minh cho mối liên hệ giữa các lời nói.

Mối quan hệ giữa các thực thể

Một tính chất khác làm cho một diễn ngôn trở nên mạch lạc là phải có một loại mối quan hệ nhất định với các thực thể. Loại kết hợp như vậy được gọi là kết hợp dựa trên thực thể.

Cấu trúc diễn văn

Một câu hỏi quan trọng liên quan đến diễn ngôn là loại cấu trúc diễn ngôn phải có. Câu trả lời cho câu hỏi này phụ thuộc vào cách phân đoạn mà chúng tôi áp dụng trong diễn ngôn. Phân đoạn diễn ngôn có thể được định nghĩa là xác định các kiểu cấu trúc cho diễn ngôn lớn. Khá khó để thực hiện phân đoạn diễn ngôn, nhưng nó rất quan trọng đối vớiinformation retrieval, text summarization and information extraction các loại ứng dụng.

Các thuật toán cho phân đoạn diễn văn

Trong phần này, chúng ta sẽ tìm hiểu về các thuật toán phân đoạn diễn ngôn. Các thuật toán được mô tả bên dưới:

Phân đoạn diễn văn không được giám sát

Loại phân đoạn diễn ngôn không giám sát thường được biểu diễn dưới dạng phân đoạn tuyến tính. Chúng ta có thể hiểu nhiệm vụ của phân đoạn tuyến tính với sự trợ giúp của một ví dụ. Trong ví dụ, có một nhiệm vụ phân đoạn văn bản thành các đơn vị nhiều đoạn; các đơn vị thể hiện đoạn văn của văn bản gốc. Các thuật toán này phụ thuộc vào sự gắn kết có thể được định nghĩa là việc sử dụng các thiết bị ngôn ngữ nhất định để gắn kết các đơn vị văn bản với nhau. Mặt khác, sự gắn kết từ vựng là sự gắn kết được chỉ ra bởi mối quan hệ giữa hai hoặc nhiều từ trong hai đơn vị giống như việc sử dụng các từ đồng nghĩa.

Phân đoạn diễn văn được giám sát

Phương pháp trước đó không có bất kỳ ranh giới phân đoạn được gắn nhãn thủ công nào. Mặt khác, phân đoạn diễn ngôn được giám sát cần có dữ liệu huấn luyện được gắn nhãn ranh giới. Nó là rất dễ dàng để có được như nhau. Trong phân đoạn diễn ngôn có giám sát, điểm đánh dấu diễn ngôn hoặc từ gợi ý đóng một vai trò quan trọng. Dấu hiệu diễn ngôn hoặc từ gợi ý là một từ hoặc cụm từ có chức năng báo hiệu cấu trúc diễn ngôn. Các điểm đánh dấu diễn ngôn này là theo miền cụ thể.

Tính mạch lạc của văn bản

Lặp lại từ vựng là một cách để tìm ra cấu trúc trong một bài văn, nhưng nó không đáp ứng được yêu cầu là bài văn mạch lạc. Để đạt được bài nghị luận mạch lạc, chúng ta phải tập trung vào các quan hệ mạch lạc trong cụ thể. Như chúng ta biết rằng quan hệ mạch lạc xác định mối liên hệ có thể có giữa các phát ngôn trong một diễn ngôn. Hebb đã đề xuất những kiểu quan hệ như sau:

Chúng tôi đang thực hiện hai điều khoản S0S1 để trình bày ý nghĩa của hai câu liên quan -

Kết quả

Nó suy ra rằng trạng thái được xác nhận theo thời hạn S0 có thể gây ra trạng thái được khẳng định bởi S1. Ví dụ, hai câu lệnh cho thấy kết quả của mối quan hệ: Ram đã bị bốc cháy. Da anh bị bỏng.

Giải trình

Nó cho rằng trạng thái khẳng định bởi S1 có thể gây ra trạng thái được khẳng định bởi S0. Ví dụ, hai câu nói cho thấy mối quan hệ - Ram đánh nhau với bạn của Shyam. Anh đã say.

Song song, tương đông

Nó suy ra p (a1, a2,…) từ khẳng định của S0 và p (b1, b2,…) từ khẳng định S1. Ở đây ai và bi là tương tự cho tất cả i. Ví dụ, hai câu lệnh song song - Ram muốn xe. Shyam muốn tiền.

Công phu

Nó đưa ra cùng một mệnh đề P từ cả hai khẳng định - S0S1Ví dụ, hai câu lệnh cho thấy sự xây dựng mối quan hệ: Ram đến từ Chandigarh. Shyam đến từ Kerala.

Dịp

Nó xảy ra khi một sự thay đổi trạng thái có thể được suy ra từ khẳng định S0, trạng thái cuối cùng có thể được suy ra từ S1và ngược lại. Ví dụ, hai câu cho thấy sự kiện quan hệ: Ram nhặt cuốn sách. Anh ấy đưa nó cho Shyam.

Xây dựng cấu trúc diễn văn thứ bậc

Tính liên kết của toàn bộ diễn ngôn cũng có thể được xem xét theo cấu trúc thứ bậc giữa các quan hệ mạch lạc. Ví dụ, đoạn văn sau có thể được biểu diễn dưới dạng cấu trúc phân cấp:

  • S1 - Ram đến ngân hàng để gửi tiền.

  • S2 - Sau đó anh ấy đi tàu đến cửa hàng vải của Shyam.

  • S3 - Anh ấy muốn mua một số quần áo.

  • S4 - Anh ấy không có quần áo mới để dự tiệc.

  • S5 - Anh ấy cũng muốn nói chuyện với Shyam về sức khỏe của anh ấy

Độ phân giải tham chiếu

Việc diễn giải các câu từ bất kỳ diễn ngôn nào cũng là một nhiệm vụ quan trọng khác và để đạt được điều này, chúng ta cần biết ai hoặc thực thể nào đang được nói đến. Ở đây, tham chiếu giải thích là yếu tố chính.Referencecó thể được định nghĩa là biểu thức ngôn ngữ để biểu thị một thực thể hoặc cá nhân. Ví dụ, trong đoạn văn, Ram , giám đốc của ngân hàng ABC , đã nhìn thấy người bạn của mình là Shyam tại một cửa hàng. Anh ta đến gặp anh ta, những ngôn ngữ biểu đạt như Ram, His, He là tham khảo.

Trên cùng một lưu ý, reference resolution có thể được định nghĩa là nhiệm vụ xác định những thực thể nào được gọi bằng biểu thức ngôn ngữ nào.

Thuật ngữ được sử dụng trong độ phân giải tham chiếu

Chúng tôi sử dụng các thuật ngữ sau trong giải pháp tham chiếu -

  • Referring expression- Biểu thức ngôn ngữ tự nhiên được sử dụng để thực hiện quy chiếu được gọi là biểu thức quy chiếu. Ví dụ, đoạn văn được sử dụng ở trên là một biểu thức giới thiệu.

  • Referent- Nó là thực thể được giới thiệu. Ví dụ, trong ví dụ cuối cùng, Ram là một tham chiếu.

  • Corefer- Khi hai biểu thức được sử dụng để chỉ cùng một thực thể, chúng được gọi là corefers. Ví dụ,Ramhe là những con lõi.

  • Antecedent- Thời hạn có phép sử dụng thuật ngữ khác. Ví dụ,Ram là tiền thân của tham chiếu he.

  • Anaphora & Anaphoric- Nó có thể được định nghĩa là tham chiếu đến một thực thể đã được đưa vào câu trước đó. Và, biểu thức giới thiệu được gọi là đảo ngữ.

  • Discourse model - Mô hình chứa các đại diện của các thực thể đã được đề cập đến trong diễn ngôn và mối quan hệ mà chúng tham gia vào.

Các loại biểu thức giới thiệu

Bây giờ chúng ta hãy xem các loại biểu thức giới thiệu khác nhau. Năm loại biểu thức giới thiệu được mô tả dưới đây:

Cụm danh từ không xác định

Loại tham chiếu như vậy đại diện cho các thực thể mới đối với người nghe vào bối cảnh diễn ngôn. Ví dụ - trong câu Ram đã đi xung quanh một ngày để mang cho anh ta một số thức ăn - một số là một tham chiếu không xác định.

Cụm danh từ xác định

Đối lập với ở trên, loại tham chiếu như vậy đại diện cho các thực thể không mới hoặc không thể nhận dạng đối với người nghe trong ngữ cảnh diễn ngôn. Ví dụ, trong câu - I used to read The Times of India - Thời báo Ấn Độ là một tham chiếu xác định.

Đại từ

Nó là một hình thức tham chiếu xác định. Ví dụ, Ram cười lớn hết mức có thể. Từhe biểu thị đại từ giới thiệu.

Người biểu tình

Những điều này chứng tỏ và hoạt động khác với các đại từ xác định đơn giản. Ví dụ, this và that là đại từ biểu thị.

Tên

Đây là loại biểu thức giới thiệu đơn giản nhất. Nó có thể là tên của một người, tổ chức và địa điểm. Ví dụ, trong các ví dụ trên, Ram là biểu thức tham chiếu tên.

Tham khảo nhiệm vụ giải quyết

Hai tác vụ giải quyết tham chiếu được mô tả bên dưới.

Độ phân giải lõi

Nó có nhiệm vụ tìm kiếm các biểu thức tham chiếu trong một văn bản tham chiếu đến cùng một thực thể. Nói một cách dễ hiểu, nó có nhiệm vụ tìm ra các biểu thức corefer. Một tập hợp các biểu thức lõi được gọi là chuỗi lõi. Ví dụ - He, Chief Manager và His - đây là những biểu thức đề cập đến trong đoạn văn đầu tiên được đưa ra làm ví dụ.

Ràng buộc về độ phân giải lõi

Trong tiếng Anh, vấn đề chính để giải quyết vấn đề chính là đại từ nó. Lý do đằng sau điều này là đại từ nó có rất nhiều cách sử dụng. Ví dụ, nó có thể đề cập đến nhiều như anh ấy và cô ấy. Đại từ nó cũng chỉ sự vật mà không chỉ sự vật cụ thể. Ví dụ, Trời đang mưa. Nó thực sự là tốt.

Độ phân giải tương tự danh nghĩa

Không giống như độ phân giải lõi, độ phân giải đảo ngữ tiền thân có thể được định nghĩa là nhiệm vụ tìm tiền thân cho một đại từ duy nhất. Ví dụ, đại từ là của anh ta và nhiệm vụ của việc phân giải đảo ngữ đại từ là tìm từ Ram vì Ram là tiền thân.