Gắn thẻ một phần của giọng nói (PoS)

Gắn thẻ là một loại phân loại có thể được định nghĩa là việc tự động gán mô tả cho các mã thông báo. Ở đây, bộ mô tả được gọi là thẻ, có thể đại diện cho một trong những thông tin về ngữ nghĩa, phần lời nói, v.v.

Bây giờ, nếu chúng ta nói về việc gắn thẻ Part-of-Speech (PoS), thì nó có thể được định nghĩa là quá trình gán một trong các phần của giọng nói cho từ đã cho. Nó thường được gọi là gắn thẻ POS. Nói một cách dễ hiểu, chúng ta có thể nói rằng gắn thẻ POS là một nhiệm vụ gắn nhãn mỗi từ trong một câu với phần lời nói thích hợp của nó. Chúng ta đã biết rằng các phần của lời nói bao gồm danh từ, động từ, trạng từ, tính từ, đại từ, kết hợp và các tiểu loại của chúng.

Hầu hết việc gắn thẻ POS thuộc về gắn thẻ POS Cơ sở Quy tắc, gắn thẻ POS Stochastic và gắn thẻ dựa trên Chuyển đổi.

Gắn thẻ POS dựa trên quy tắc

Một trong những kỹ thuật gắn thẻ lâu đời nhất là gắn thẻ POS dựa trên quy tắc. Trình gắn thẻ dựa trên quy tắc sử dụng từ điển hoặc từ vựng để nhận các thẻ khả thi để gắn thẻ từng từ. Nếu từ có thể có nhiều hơn một thẻ, thì các trình gắn thẻ dựa trên quy tắc sẽ sử dụng các quy tắc viết tay để xác định đúng thẻ. Việc phân định cũng có thể được thực hiện trong việc gắn thẻ dựa trên quy tắc bằng cách phân tích các đặc điểm ngôn ngữ của một từ cùng với các từ đứng trước cũng như sau nó. Ví dụ: giả sử nếu từ đứng trước của một từ là mạo từ thì từ đó phải là một danh từ.

Như tên cho thấy, tất cả các loại thông tin như vậy trong gắn thẻ POS dựa trên quy tắc được mã hóa dưới dạng quy tắc. Các quy tắc này có thể là -

  • Quy tắc mẫu ngữ cảnh

  • Hoặc, như Biểu thức chính quy được biên dịch thành tự động ở trạng thái hữu hạn, xen kẽ với biểu diễn câu không rõ ràng về mặt từ vựng.

Chúng ta cũng có thể hiểu việc gắn thẻ POS dựa trên Quy tắc bằng kiến ​​trúc hai giai đoạn của nó -

  • First stage - Trong giai đoạn đầu, nó sử dụng từ điển để gán cho mỗi từ một danh sách các phần tiềm năng của lời nói.

  • Second stage - Trong giai đoạn thứ hai, nó sử dụng danh sách lớn các quy tắc phân định được viết tay để sắp xếp danh sách thành một phần của giọng nói cho mỗi từ.

Thuộc tính của gắn thẻ POS dựa trên quy tắc

Trình gắn thẻ POS dựa trên quy tắc có các thuộc tính sau:

  • Các trình gắn thẻ này là các trình kích hoạt dựa trên kiến ​​thức.

  • Các quy tắc trong gắn thẻ POS dựa trên Quy tắc được xây dựng theo cách thủ công.

  • Thông tin được mã hóa dưới dạng các quy tắc.

  • Chúng tôi có một số quy tắc giới hạn khoảng 1000.

  • Làm mượt và mô hình hóa ngôn ngữ được xác định rõ ràng trong các trình gắn thẻ dựa trên quy tắc.

Gắn thẻ POS Stochastic

Một kỹ thuật gắn thẻ khác là Gắn thẻ POS Stochastic. Bây giờ, câu hỏi đặt ra ở đây là mô hình nào có thể là ngẫu nhiên. Mô hình bao gồm tần suất hoặc xác suất (thống kê) có thể được gọi là ngẫu nhiên. Bất kỳ cách tiếp cận nào khác nhau đối với vấn đề gắn thẻ một phần giọng nói đều có thể được gọi là trình gắn thẻ ngẫu nhiên.

Trình gắn thẻ ngẫu nhiên đơn giản nhất áp dụng các cách tiếp cận sau để gắn thẻ POS:

Phương pháp tiếp cận tần số từ

Trong cách tiếp cận này, các thẻ ngẫu nhiên kích hoạt phân biệt các từ dựa trên xác suất một từ xuất hiện với một thẻ cụ thể. Chúng ta cũng có thể nói rằng thẻ gặp phải thường xuyên nhất với từ trong tập huấn luyện là thẻ được gán cho một phiên bản không rõ ràng của từ đó. Vấn đề chính với cách tiếp cận này là nó có thể mang lại chuỗi thẻ không thể chấp nhận được.

Xác suất trình tự thẻ

Đó là một cách tiếp cận khác của gắn thẻ ngẫu nhiên, trong đó trình gắn thẻ tính toán xác suất xuất hiện của một chuỗi thẻ nhất định. Nó còn được gọi là phương pháp tiếp cận n-gram. Nó được gọi như vậy bởi vì thẻ tốt nhất cho một từ nhất định được xác định bởi xác suất mà nó xuất hiện với n thẻ trước đó.

Thuộc tính của gắn thẻ BÀI ĐĂNG Stochastic

Trình gắn thẻ Stochastic POS có các thuộc tính sau:

  • Việc gắn thẻ POS này dựa trên xác suất xuất hiện của thẻ.

  • Nó yêu cầu kho dữ liệu đào tạo

  • Sẽ không có xác suất cho các từ không tồn tại trong kho ngữ liệu.

  • Nó sử dụng ngữ liệu thử nghiệm khác nhau (ngoài ngữ liệu đào tạo).

  • Đây là cách gắn thẻ POS đơn giản nhất vì nó chọn các thẻ thường xuyên nhất được liên kết với một từ trong kho ngữ liệu đào tạo.

Gắn thẻ dựa trên chuyển đổi

Gắn thẻ dựa trên chuyển đổi còn được gọi là gắn thẻ Brill. Nó là một ví dụ của học tập dựa trên chuyển đổi (TBL), là một thuật toán dựa trên quy tắc để tự động gắn thẻ POS cho văn bản nhất định. TBL, cho phép chúng ta có kiến ​​thức ngôn ngữ ở dạng có thể đọc được, chuyển trạng thái này sang trạng thái khác bằng cách sử dụng các quy tắc chuyển đổi.

Nó lấy cảm hứng từ cả các trình kích hoạt được giải thích trước đó - dựa trên quy tắc và ngẫu nhiên. Nếu chúng ta thấy sự giống nhau giữa trình gắn thẻ dựa trên quy tắc và chuyển đổi, thì giống như dựa trên quy tắc, nó cũng dựa trên các quy tắc chỉ định thẻ nào cần được gán cho những từ nào. Mặt khác, nếu chúng ta thấy sự giống nhau giữa ngẫu nhiên và trình gắn thẻ chuyển đổi thì cũng giống như ngẫu nhiên, đó là kỹ thuật học máy trong đó các quy tắc được tự động tạo ra từ dữ liệu.

Làm việc của Học tập Dựa trên Chuyển đổi (TBL)

Để hiểu hoạt động và khái niệm của các trình kích hoạt dựa trên chuyển đổi, chúng ta cần hiểu hoạt động của học tập dựa trên chuyển đổi. Hãy xem xét các bước sau để hiểu hoạt động của TBL -

  • Start with the solution - TBL thường bắt đầu với một số giải pháp cho vấn đề và hoạt động theo chu kỳ.

  • Most beneficial transformation chosen - Trong mỗi chu kỳ, TBL sẽ chọn cách biến đổi có lợi nhất.

  • Apply to the problem - Phép biến đổi được chọn ở bước cuối cùng sẽ được áp dụng cho bài toán.

Thuật toán sẽ dừng khi phép biến đổi đã chọn ở bước 2 không thêm giá trị nào nữa hoặc không còn phép biến đổi nào được chọn. Hình thức học tập như vậy là phù hợp nhất trong các nhiệm vụ phân loại.

Ưu điểm của Học tập dựa trên Chuyển đổi (TBL)

Các ưu điểm của TBL như sau:

  • Chúng tôi tìm hiểu một loạt các quy tắc đơn giản và những quy tắc này là đủ để gắn thẻ.

  • Việc phát triển cũng như gỡ lỗi rất dễ dàng trong TBL vì các quy tắc đã học rất dễ hiểu.

  • Sự phức tạp trong việc gắn thẻ được giảm bớt vì trong TBL có sự xen kẽ của các quy tắc do máy móc và con người tạo ra.

  • Trình gắn thẻ dựa trên chuyển đổi nhanh hơn nhiều so với trình gắn thẻ mô hình Markov.

Nhược điểm của Học tập dựa trên Chuyển đổi (TBL)

Những nhược điểm của TBL như sau:

  • Học tập dựa trên chuyển đổi (TBL) không cung cấp xác suất thẻ.

  • Trong TBL, thời gian đào tạo rất dài, đặc biệt là trên kho ngữ liệu lớn.

Gắn thẻ POS Mô hình Markov ẩn (HMM)

Trước khi đào sâu về gắn thẻ HMM POS, chúng ta phải hiểu khái niệm về Mô hình Markov ẩn (HMM).

Mô hình Markov ẩn

Mô hình HMM có thể được định nghĩa là mô hình ngẫu nhiên được nhúng kép, trong đó quá trình ngẫu nhiên cơ bản bị ẩn. Quá trình ngẫu nhiên ẩn này chỉ có thể được quan sát thông qua một tập hợp các quá trình ngẫu nhiên khác tạo ra chuỗi các quan sát.

Thí dụ

Ví dụ, một chuỗi thí nghiệm tung đồng xu ẩn được thực hiện và chúng ta chỉ thấy chuỗi quan sát gồm đầu và đuôi. Các chi tiết thực tế của quá trình - số lượng xu được sử dụng, thứ tự mà chúng được chọn - được ẩn với chúng tôi. Bằng cách quan sát chuỗi đầu và đuôi này, chúng ta có thể xây dựng một số HMM để giải thích trình tự. Sau đây là một dạng của Mô hình Markov ẩn cho vấn đề này:

Chúng tôi giả định rằng có hai trạng thái trong HMM và mỗi trạng thái tương ứng với việc lựa chọn đồng xu thiên vị khác nhau. Ma trận sau cung cấp các xác suất chuyển đổi trạng thái:

$$ A = \ begin {bmatrix} a11 & a12 \\ a21 & a22 \ end {bmatrix} $$

Đây,

  • aij = xác suất chuyển từ trạng thái này sang trạng thái khác từ i sang j.

  • a11 + a12= 1 và a 21 + a 22 = 1

  • P1 = xác suất của các đầu của đồng xu đầu tiên tức là độ lệch của đồng xu đầu tiên.

  • P2 = xác suất đầu của đồng xu thứ hai tức là độ lệch của đồng xu thứ hai.

Chúng ta cũng có thể tạo mô hình HMM giả sử rằng có 3 đồng xu trở lên.

Bằng cách này, chúng ta có thể mô tả HMM theo các yếu tố sau:

  • N, số trạng thái trong mô hình (trong ví dụ trên N = 2, chỉ có hai trạng thái).

  • M, số lượng các quan sát phân biệt có thể xuất hiện với mỗi trạng thái trong ví dụ trên M = 2, tức là, H hoặc T).

  • A, phân bố xác suất chuyển trạng thái - ma trận A trong ví dụ trên.

  • P, phân phối xác suất của các ký hiệu có thể quan sát được ở mỗi trạng thái (trong ví dụ P1 và P2 của chúng ta).

  • I, phân phối trạng thái ban đầu.

Sử dụng HMM để gắn thẻ POS

Quy trình gắn thẻ POS là quy trình tìm kiếm chuỗi các thẻ có nhiều khả năng đã tạo ra một chuỗi từ nhất định. Chúng tôi có thể lập mô hình quy trình POS này bằng cách sử dụng Mô hình Markov ẩn (HMM), trong đótagshidden states điều đó tạo ra observable output, tức là words.

Về mặt toán học, trong gắn thẻ POS, chúng tôi luôn quan tâm đến việc tìm một chuỗi thẻ (C) tối đa hóa -

P (C|W)

Ở đâu,

C = C 1 , C 2 , C 3 ... C T

W = W 1 , W 2 , W 3 , W T

Mặt khác, thực tế là chúng ta cần rất nhiều dữ liệu thống kê để ước tính hợp lý các loại trình tự như vậy. Tuy nhiên, để đơn giản hóa vấn đề, chúng ta có thể áp dụng một số phép biến đổi toán học cùng với một số giả thiết.

Việc sử dụng HMM để gắn thẻ POS là một trường hợp đặc biệt của sự can thiệp của Bayes. Do đó, chúng ta sẽ bắt đầu bằng cách trình bày lại vấn đề bằng cách sử dụng quy tắc Bayes, nói rằng xác suất có điều kiện nói trên bằng với -

(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)

Chúng ta có thể loại bỏ mẫu số trong tất cả các trường hợp này vì chúng ta quan tâm đến việc tìm dãy C có giá trị lớn nhất ở trên. Điều này sẽ không ảnh hưởng đến câu trả lời của chúng tôi. Bây giờ, vấn đề của chúng ta chỉ là tìm ra dãy C tối đa hóa -

PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)

Ngay cả sau khi giảm vấn đề trong biểu thức trên, nó sẽ yêu cầu một lượng lớn dữ liệu. Chúng ta có thể đưa ra các giả định độc lập hợp lý về hai xác suất trong biểu thức trên để khắc phục vấn đề.

Giả định đầu tiên

Xác suất của một thẻ phụ thuộc vào thẻ trước đó (mô hình bigram) hoặc hai thẻ trước đó (mô hình trigram) hoặc n thẻ trước đó (mô hình n-gram), về mặt toán học, có thể được giải thích như sau:

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)

Đầu câu có thể được tính bằng cách giả sử một xác suất ban đầu cho mỗi thẻ.

PROB (C1|C0) = PROB initial (C1)

Giả định thứ hai

Xác suất thứ hai trong phương trình (1) ở trên có thể được tính gần đúng bằng cách giả định rằng một từ xuất hiện trong một danh mục độc lập với các từ trong các danh mục trước hoặc sau, có thể được giải thích bằng toán học như sau:

PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)

Bây giờ, trên cơ sở hai giả định trên, mục tiêu của chúng ta giảm xuống việc tìm ra một chuỗi C tối đa hóa

Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)

Bây giờ câu hỏi đặt ra ở đây là việc chuyển đổi vấn đề sang dạng trên có thực sự giúp ích cho chúng tôi không. Câu trả lời là - có, nó có. Nếu chúng ta có một kho dữ liệu được gắn thẻ lớn, thì hai xác suất trong công thức trên có thể được tính là:

PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)

PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)