AI - Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) đề cập đến phương pháp AI giao tiếp với một hệ thống thông minh bằng ngôn ngữ tự nhiên như tiếng Anh.

Xử lý ngôn ngữ tự nhiên là bắt buộc khi bạn muốn một hệ thống thông minh như rô bốt thực hiện theo hướng dẫn của bạn, khi bạn muốn nghe quyết định từ hệ thống chuyên gia lâm sàng dựa trên đối thoại, v.v.

Lĩnh vực NLP liên quan đến việc chế tạo máy tính để thực hiện các tác vụ hữu ích với ngôn ngữ tự nhiên mà con người sử dụng. Đầu vào và đầu ra của một hệ thống NLP có thể là:

  • Speech
  • Văn bản viết tay

Các thành phần của NLP

Có hai thành phần của NLP như đã cho:

Hiểu ngôn ngữ tự nhiên (NLU)

Hiểu biết bao gồm các nhiệm vụ sau:

  • Ánh xạ đầu vào đã cho bằng ngôn ngữ tự nhiên thành các biểu diễn hữu ích.
  • Phân tích các khía cạnh khác nhau của ngôn ngữ.

Tạo ngôn ngữ tự nhiên (NLG)

Đó là quá trình tạo ra các cụm từ và câu có nghĩa dưới dạng ngôn ngữ tự nhiên từ một số biểu diễn bên trong.

Nó liên quan đến -

  • Text planning - Nó bao gồm việc truy xuất nội dung liên quan từ cơ sở tri thức.

  • Sentence planning - Nó bao gồm việc lựa chọn các từ cần thiết, hình thành các cụm từ có nghĩa, thiết lập giọng điệu của câu.

  • Text Realization - Nó là ánh xạ kế hoạch câu thành cấu trúc câu.

NLU khó hơn NLG.

Những khó khăn trong trường ĐHNL

NL có hình thức và cấu trúc vô cùng phong phú.

Nó rất mơ hồ. Có thể có nhiều mức độ mơ hồ khác nhau -

  • Lexical ambiguity - Nó ở cấp độ rất sơ khai như cấp độ từ.

  • Ví dụ, coi từ “board” là danh từ hay động từ?

  • Syntax Level ambiguity - Một câu có thể được phân tích cú pháp theo nhiều cách khác nhau.

  • Ví dụ: "Anh ấy nâng con bọ có mũ màu đỏ." - Anh ta dùng nắp để nhấc con bọ lên hay anh ta nhấc một con bọ cánh cứng có nắp màu đỏ?

  • Referential ambiguity- Đề cập đến điều gì đó bằng cách sử dụng đại từ. Ví dụ, Rima đã đến Gauri. Cô ấy nói, "Tôi mệt mỏi." - Chính xác là ai đang mệt?

  • Một đầu vào có thể có nghĩa khác nhau.

  • Nhiều đầu vào có thể có nghĩa giống nhau.

Thuật ngữ NLP

  • Phonology - Đó là nghiên cứu về tổ chức âm thanh một cách hệ thống.

  • Morphology - Đó là nghiên cứu về cấu tạo của từ từ các đơn vị có nghĩa nguyên thủy.

  • Morpheme - Nó là đơn vị nghĩa nguyên thủy trong ngôn ngữ.

  • Syntax- Nó đề cập đến việc sắp xếp các từ để tạo thành một câu. Nó cũng liên quan đến việc xác định vai trò cấu trúc của các từ trong câu và trong các cụm từ.

  • Semantics - Nó liên quan đến nghĩa của từ và cách kết hợp các từ thành các cụm từ và câu có nghĩa.

  • Pragmatics - Nó đề cập đến việc sử dụng và hiểu các câu trong các tình huống khác nhau và cách giải thích câu bị ảnh hưởng.

  • Discourse - Nó đề cập đến việc câu ngay trước có thể ảnh hưởng như thế nào đến việc giải thích câu tiếp theo.

  • World Knowledge - Nó bao gồm những kiến ​​thức chung về thế giới.

Các bước trong NLP

Có năm bước chung -

  • Lexical Analysis- Nó liên quan đến việc xác định và phân tích cấu trúc của từ. Từ vựng của một ngôn ngữ có nghĩa là tập hợp các từ và cụm từ trong một ngôn ngữ. Phân tích từ vựng là phân chia toàn bộ đoạn văn bản thành các đoạn văn, câu và từ.

  • Syntactic Analysis (Parsing)- Nó liên quan đến việc phân tích các từ trong câu để tìm ngữ pháp và sắp xếp các từ theo cách thể hiện mối quan hệ giữa các từ. Câu như "The school go to boy" bị từ chối bởi bộ phân tích cú pháp tiếng Anh.

  • Semantic Analysis- Nó rút ra ý nghĩa chính xác hoặc nghĩa từ điển từ văn bản. Văn bản được kiểm tra xem có ý nghĩa hay không. Nó được thực hiện bằng cách ánh xạ các cấu trúc cú pháp và các đối tượng trong miền tác vụ. Bộ phân tích ngữ nghĩa bỏ qua câu chẳng hạn như "kem nóng".

  • Discourse Integration- Ý nghĩa của bất kỳ câu nào phụ thuộc vào nghĩa của câu ngay trước nó. Ngoài ra nó còn mang ý nghĩa câu thành công ngay lập tức.

  • Pragmatic Analysis- Trong lúc này, những gì đã nói sẽ được diễn giải lại dựa trên ý nghĩa thực sự của nó. Nó liên quan đến việc tạo ra những khía cạnh của ngôn ngữ đòi hỏi kiến ​​thức thế giới thực.

Các khía cạnh triển khai của phân tích cú pháp

Có một số thuật toán mà các nhà nghiên cứu đã phát triển để phân tích cú pháp, nhưng chúng tôi chỉ xem xét các phương pháp đơn giản sau:

  • Ngữ pháp không theo ngữ cảnh
  • Trình phân tích cú pháp từ trên xuống

Hãy để chúng tôi xem chúng chi tiết -

Ngữ pháp không theo ngữ cảnh

Đó là ngữ pháp bao gồm các quy tắc với một ký hiệu duy nhất ở phía bên trái của các quy tắc viết lại. Hãy để chúng tôi tạo ngữ pháp để phân tích cú pháp một câu -

"Con chim mổ hạt"

Articles (DET)- a | an | các

Nouns- chim | chim | hạt | hạt

Noun Phrase (NP)- Điều + Danh từ | Bài viết + Tính từ + Danh từ

= ĐẶT N | DET ADJ N

Verbs- mổ | mổ xẻ | mổ

Verb Phrase (VP)- NP V | V NP

Adjectives (ADJ)- đẹp | nhỏ | ríu rít

Cây phân tích cú pháp chia nhỏ câu thành các phần có cấu trúc để máy tính có thể dễ dàng hiểu và xử lý nó. Để thuật toán phân tích cú pháp xây dựng cây phân tích cú pháp này, cần phải xây dựng một tập hợp các quy tắc viết lại, mô tả cấu trúc cây nào là hợp pháp.

Các quy tắc này nói rằng một biểu tượng nhất định có thể được mở rộng trong cây bằng một chuỗi các biểu tượng khác. Theo quy tắc logic bậc nhất, nếu có hai chuỗi Cụm từ danh từ (NP) và Cụm động từ (VP), thì chuỗi kết hợp bởi NP theo sau là VP là một câu. Quy tắc viết lại câu như sau:

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

HẾT → a | các

ADJ → đẹp | chim đậu

N → chim | chim | hạt | hạt

V → mổ | mổ xẻ | mổ

Cây phân tích cú pháp có thể được tạo như hình sau:

Bây giờ hãy xem xét các quy tắc viết lại ở trên. Vì V có thể được thay thế bằng cả hai, "peck" hoặc "pecks", những câu như "Con chim mổ những hạt" có thể bị sai. tức là lỗi thỏa thuận chủ ngữ-động từ được chấp thuận là đúng.

Merit - Kiểu ngữ pháp đơn giản nhất, do đó được sử dụng rộng rãi.

Demerits −

  • Chúng không có độ chính xác cao. Ví dụ, “Các hạt mổ chim”, là một cú pháp chính xác theo trình phân tích cú pháp, nhưng ngay cả khi nó vô nghĩa, trình phân tích cú pháp vẫn coi đó là một câu đúng.

  • Để mang lại độ chính xác cao, bạn cần chuẩn bị nhiều bộ ngữ pháp. Nó có thể yêu cầu một bộ quy tắc hoàn toàn khác để phân tích cú pháp các biến thể số ít và số nhiều, câu bị động, v.v., có thể dẫn đến việc tạo ra một bộ quy tắc khổng lồ không thể quản lý được.

Trình phân tích cú pháp từ trên xuống

Ở đây, trình phân tích cú pháp bắt đầu bằng ký hiệu S và cố gắng viết lại nó thành một chuỗi ký hiệu đầu cuối khớp với các lớp của các từ trong câu đầu vào cho đến khi nó bao gồm hoàn toàn các ký hiệu đầu cuối.

Sau đó chúng được kiểm tra với câu đầu vào để xem nó có khớp hay không. Nếu không, quá trình sẽ được bắt đầu lại với một bộ quy tắc khác. Điều này được lặp lại cho đến khi tìm thấy một quy tắc cụ thể mô tả cấu trúc của câu.

Merit - Nó là đơn giản để thực hiện.

Demerits −

  • Nó không hiệu quả, vì quá trình tìm kiếm phải được lặp lại nếu xảy ra lỗi.
  • Tốc độ làm việc chậm.