Xử lý ngôn ngữ tự nhiên - Giới thiệu
Ngôn ngữ là một phương thức giao tiếp với sự trợ giúp của chúng ta có thể nói, đọc và viết. Ví dụ, chúng ta nghĩ, chúng ta đưa ra quyết định, kế hoạch và hơn thế nữa bằng ngôn ngữ tự nhiên; chính xác, bằng lời nói. Tuy nhiên, câu hỏi lớn đặt ra cho chúng ta trong kỷ nguyên AI này là liệu chúng ta có thể giao tiếp theo cách tương tự với máy tính hay không. Nói cách khác, con người có thể giao tiếp với máy tính bằng ngôn ngữ tự nhiên của họ không? Đó là một thách thức đối với chúng tôi khi phát triển các ứng dụng NLP vì máy tính cần dữ liệu có cấu trúc, nhưng lời nói của con người là không có cấu trúc và thường mơ hồ về bản chất.
Theo nghĩa này, chúng ta có thể nói rằng Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực phụ của Khoa học máy tính đặc biệt là Trí tuệ nhân tạo (AI) liên quan đến việc cho phép máy tính hiểu và xử lý ngôn ngữ của con người. Về mặt kỹ thuật, nhiệm vụ chính của NLP sẽ là lập trình máy tính để phân tích và xử lý lượng dữ liệu ngôn ngữ tự nhiên khổng lồ.
Lịch sử của NLP
Chúng tôi đã chia lịch sử của NLP thành bốn giai đoạn. Các giai đoạn có mối quan tâm và phong cách riêng biệt.
Giai đoạn đầu (Giai đoạn dịch máy) - Cuối những năm 1940 đến cuối những năm 1960
Công việc được thực hiện trong giai đoạn này chủ yếu tập trung vào dịch máy (MT). Giai đoạn này là một giai đoạn nhiệt tình và lạc quan.
Bây giờ chúng ta hãy xem tất cả những gì mà giai đoạn đầu có trong đó -
Nghiên cứu về NLP bắt đầu vào đầu những năm 1950 sau cuộc điều tra của Booth & Richens và bản ghi nhớ của Weaver về dịch máy vào năm 1949.
Năm 1954 là năm mà một thử nghiệm hạn chế về dịch tự động từ tiếng Nga sang tiếng Anh được trình diễn trong thử nghiệm của Georgetown-IBM.
Cùng năm, tạp chí MT (Máy dịch) bắt đầu được xuất bản.
Hội nghị quốc tế đầu tiên về Dịch máy (MT) được tổ chức vào năm 1952 và lần thứ hai được tổ chức vào năm 1956.
Năm 1961, công trình được trình bày trong Hội nghị Quốc tế Teddington về Máy dịch các ngôn ngữ và phân tích Ngôn ngữ Ứng dụng là điểm cao của giai đoạn này.
Giai đoạn thứ hai (Giai đoạn chịu ảnh hưởng của AI) - Cuối những năm 1960 đến cuối những năm 1970
Trong giai đoạn này, công việc được thực hiện chủ yếu liên quan đến tri thức thế giới và vai trò của nó trong việc xây dựng và vận dụng các biểu diễn ý nghĩa. Đó là lý do tại sao, giai đoạn này còn được gọi là giai đoạn hương vị AI.
Giai đoạn có trong đó, như sau -
Đầu năm 1961, công việc bắt đầu về các vấn đề giải quyết và xây dựng dữ liệu hoặc cơ sở tri thức. Công việc này bị ảnh hưởng bởi AI.
Cùng năm đó, hệ thống trả lời câu hỏi BASEBALL cũng được phát triển. Đầu vào cho hệ thống này bị hạn chế và quá trình xử lý ngôn ngữ liên quan rất đơn giản.
Một hệ thống tiên tiến hơn đã được mô tả trong Minsky (1968). Hệ thống này, khi so sánh với hệ thống trả lời câu hỏi BASEBALL, đã được công nhận và cung cấp cho nhu cầu suy luận trên cơ sở kiến thức trong việc diễn giải và trả lời đầu vào ngôn ngữ.
Giai đoạn thứ ba (Giai đoạn ngữ pháp-lôgic) - Cuối những năm 1970 đến cuối những năm 1980
Giai đoạn này có thể được mô tả là giai đoạn ngữ pháp-lôgic. Do sự thất bại của việc xây dựng hệ thống thực tế trong giai đoạn trước, các nhà nghiên cứu đã chuyển sang sử dụng logic để biểu diễn và lập luận tri thức trong AI.
Giai đoạn thứ ba có những điều sau đây trong đó:
Cách tiếp cận ngữ pháp-lôgic, vào cuối thập kỷ, đã giúp chúng tôi có các bộ xử lý câu đa năng mạnh mẽ như Công cụ ngôn ngữ cốt lõi của SRI và Lý thuyết biểu diễn diễn ngôn, cung cấp một phương tiện giải quyết diễn ngôn mở rộng hơn.
Trong giai đoạn này, chúng tôi có một số tài nguyên & công cụ thực tế như trình phân tích cú pháp, ví dụ: Alvey Natural Language Tools cùng với các hệ thống hoạt động và thương mại hơn, ví dụ như truy vấn cơ sở dữ liệu.
Công trình nghiên cứu về từ vựng năm 1980 cũng chỉ ra hướng tiếp cận ngữ pháp-lôgic.
Giai đoạn thứ tư (Giai đoạn Lexical & Corpus) - Những năm 1990
Chúng ta có thể mô tả điều này như một giai đoạn từ vựng & ngữ liệu. Giai đoạn này có một cách tiếp cận từ vựng hóa ngữ pháp xuất hiện vào cuối những năm 1980 và ngày càng có ảnh hưởng lớn. Đã có một cuộc cách mạng trong xử lý ngôn ngữ tự nhiên trong thập kỷ này với sự ra đời của các thuật toán học máy để xử lý ngôn ngữ.
Nghiên cứu ngôn ngữ của con người
Ngôn ngữ là một thành phần quan trọng đối với cuộc sống của con người và cũng là khía cạnh cơ bản nhất trong hành vi của chúng ta. Chúng ta có thể trải nghiệm nó ở hai dạng chủ yếu - viết và nói. Dưới dạng văn bản, đó là một cách để truyền kiến thức của chúng ta từ thế hệ này sang thế hệ khác. Ở dạng nói, nó là phương tiện chính để con người phối hợp với nhau trong hành vi hàng ngày của họ. Ngôn ngữ được nghiên cứu trong các ngành học khác nhau. Mỗi ngành học đều có những vấn đề riêng và một nhóm giải pháp để giải quyết những vấn đề đó.
Hãy xem xét bảng sau để hiểu điều này -
Kỷ luật | Các vấn đề | Công cụ |
---|---|---|
Nhà ngôn ngữ học |
Làm thế nào các cụm từ và câu có thể được tạo thành với các từ? Điều gì hạn chế ý nghĩa có thể cho một câu? |
Các trực quan về khả năng hình thành tốt và ý nghĩa. Mô hình toán học của cấu trúc. Ví dụ, ngữ nghĩa lý thuyết mô hình, lý thuyết ngôn ngữ hình thức. |
Nhà tâm lý học |
Làm thế nào con người có thể xác định được cấu trúc của câu? Làm thế nào để xác định nghĩa của từ? Sự hiểu biết diễn ra khi nào? |
Kỹ thuật thực nghiệm chủ yếu để đo lường hiệu suất của con người. Phân tích thống kê các quan sát. |
Triết gia |
Làm thế nào để các từ và câu có được ý nghĩa? Làm thế nào các đối tượng được xác định bởi các từ? Nghĩa là gì? |
Lập luận ngôn ngữ tự nhiên bằng cách sử dụng trực giác. Các mô hình toán học như logic và lý thuyết mô hình. |
Nhà ngôn ngữ tính toán |
Làm thế nào chúng ta có thể xác định cấu trúc của một câu Làm thế nào kiến thức và lý luận có thể được mô hình hóa? Làm thế nào chúng ta có thể sử dụng ngôn ngữ để hoàn thành các nhiệm vụ cụ thể? |
Thuật toán Cấu trúc dữ liệu Các mô hình chính thức về biểu diễn và lập luận. Các kỹ thuật AI như phương pháp tìm kiếm và đại diện. |
Sự mơ hồ và không chắc chắn trong ngôn ngữ
Tính mơ hồ, thường được sử dụng trong xử lý ngôn ngữ tự nhiên, có thể được coi là khả năng được hiểu theo nhiều cách. Nói một cách dễ hiểu, chúng ta có thể nói rằng sự mơ hồ là khả năng được hiểu theo nhiều cách. Ngôn ngữ tự nhiên rất mơ hồ. NLP có các loại mơ hồ sau:
Sự mơ hồ về ngôn ngữ
Sự mơ hồ của một từ được gọi là sự mơ hồ về mặt từ vựng. Ví dụ, xử lý từsilver như một danh từ, một tính từ hoặc một động từ.
Sự mơ hồ về cú pháp
Loại mơ hồ này xảy ra khi một câu được phân tích cú pháp theo nhiều cách khác nhau. Ví dụ, câu “Người đàn ông nhìn thấy cô gái bằng kính thiên văn”. Không rõ liệu người đàn ông nhìn thấy cô gái mang theo kính viễn vọng hay anh ta nhìn thấy cô ấy qua kính viễn vọng của mình.
Sự mơ hồ về ngữ nghĩa
Loại mơ hồ này xảy ra khi bản thân ý nghĩa của các từ có thể bị hiểu sai. Nói cách khác, sự mơ hồ về ngữ nghĩa xảy ra khi một câu chứa một từ hoặc cụm từ không rõ ràng. Ví dụ, câu “Chiếc xe đâm vào cột trong khi nó đang di chuyển” có sự mơ hồ về ngữ nghĩa bởi vì các cách hiểu có thể là “Chiếc xe, trong khi di chuyển, đâm vào cột” và “Chiếc ô tô đâm vào cột trong khi cột đang chuyển động”.
Sự mơ hồ tương tự
Loại mơ hồ này nảy sinh do việc sử dụng các thực thể anaphora trong diễn ngôn. Ví dụ, con ngựa chạy lên đồi. Nó rất dốc. Nó đã sớm trở nên mệt mỏi. Ở đây, tham chiếu đảo ngữ của “it” trong hai tình huống gây ra sự mơ hồ.
Sự mơ hồ thực dụng
Loại mơ hồ như vậy đề cập đến tình huống trong đó ngữ cảnh của một cụm từ cung cấp cho nó nhiều cách hiểu. Nói một cách dễ hiểu, chúng ta có thể nói rằng sự mơ hồ thực dụng nảy sinh khi tuyên bố không cụ thể. Ví dụ, câu “I like you too” có thể có nhiều cách hiểu như tôi thích bạn (giống như bạn thích tôi), tôi thích bạn (giống như người khác liều).
Các giai đoạn NLP
Sơ đồ sau đây cho thấy các giai đoạn hoặc các bước logic trong xử lý ngôn ngữ tự nhiên:
Xử lý hình thái
Đây là giai đoạn đầu tiên của NLP. Mục đích của giai đoạn này là chia nhỏ các đầu vào ngôn ngữ thành các bộ mã thông báo tương ứng với các đoạn văn, câu và từ. Ví dụ, một từ như“uneasy” có thể được chia thành hai mã thông báo từ phụ như “un-easy”.
Phân tích cú pháp
Đó là giai đoạn thứ hai của NLP. Mục đích của giai đoạn này là hai phần: để kiểm tra xem một câu có được hình thành tốt hay không và để chia nó thành một cấu trúc thể hiện mối quan hệ cú pháp giữa các từ khác nhau. Ví dụ, câu like“The school goes to the boy” sẽ bị từ chối bởi trình phân tích cú pháp hoặc trình phân tích cú pháp.
Phân tích ngữ nghĩa
Đó là giai đoạn thứ ba của NLP. Mục đích của giai đoạn này là rút ra ý nghĩa chính xác, hoặc bạn có thể nói nghĩa từ điển từ văn bản. Văn bản được kiểm tra xem có ý nghĩa hay không. Ví dụ: trình phân tích ngữ nghĩa sẽ từ chối một câu như "Kem nóng".
Phân tích thực dụng
Đó là giai đoạn thứ tư của NLP. Phân tích thực dụng chỉ đơn giản là phù hợp với các đối tượng / sự kiện thực tế, tồn tại trong một bối cảnh nhất định với các tham chiếu đối tượng thu được trong giai đoạn cuối cùng (phân tích ngữ nghĩa). Ví dụ, câu “Đặt chuối vào giỏ trên kệ” có thể có hai cách hiểu ngữ nghĩa và bộ phân tích ngữ dụng sẽ chọn giữa hai khả năng này.