Xử lý ngôn ngữ tự nhiên - Phân tích cú pháp
Phân tích cú pháp hoặc phân tích cú pháp hoặc phân tích cú pháp là giai đoạn thứ ba của NLP. Mục đích của giai đoạn này là rút ra ý nghĩa chính xác, hoặc bạn có thể nói nghĩa từ điển từ văn bản. Phân tích cú pháp kiểm tra tính có nghĩa của văn bản so với các quy tắc của ngữ pháp chính thức. Ví dụ, câu như "kem nóng" sẽ bị từ chối bởi trình phân tích ngữ nghĩa.
Theo nghĩa này, phân tích cú pháp hoặc phân tích cú pháp có thể được định nghĩa là quá trình phân tích các chuỗi ký hiệu trong ngôn ngữ tự nhiên tuân theo các quy tắc của ngữ pháp chính thức. Nguồn gốc của từ‘parsing’ là từ tiếng Latinh ‘pars’ nghĩa là ‘part’.
Khái niệm về trình phân tích cú pháp
Nó được sử dụng để thực hiện nhiệm vụ phân tích cú pháp. Nó có thể được định nghĩa là thành phần phần mềm được thiết kế để lấy dữ liệu đầu vào (văn bản) và đưa ra biểu diễn cấu trúc của đầu vào sau khi kiểm tra cú pháp đúng theo ngữ pháp chính thức. Nó cũng xây dựng một cấu trúc dữ liệu nói chung dưới dạng cây phân tích cú pháp hoặc cây cú pháp trừu tượng hoặc cấu trúc phân cấp khác.
Các vai trò chính của phân tích cú pháp bao gồm:
Để báo cáo bất kỳ lỗi cú pháp nào.
Để khôi phục lỗi thường xảy ra để có thể tiếp tục xử lý phần còn lại của chương trình.
Để tạo cây phân tích cú pháp.
Để tạo bảng ký hiệu.
Để tạo ra các biểu diễn trung gian (IR).
Các loại phân tích cú pháp
Derivation chia phân tích cú pháp thành hai loại sau:
Phân tích cú pháp từ trên xuống
Phân tích cú pháp từ dưới lên
Phân tích cú pháp từ trên xuống
Trong kiểu phân tích cú pháp này, trình phân tích cú pháp bắt đầu xây dựng cây phân tích cú pháp từ biểu tượng bắt đầu và sau đó cố gắng chuyển đổi biểu tượng bắt đầu thành đầu vào. Dạng phân tích cú pháp từ trên xuống phổ biến nhất sử dụng thủ tục đệ quy để xử lý đầu vào. Nhược điểm chính của phân tích cú pháp gốc đệ quy là quay lui.
Phân tích cú pháp từ dưới lên
Trong kiểu phân tích cú pháp này, trình phân tích cú pháp bắt đầu bằng ký hiệu đầu vào và cố gắng xây dựng cây phân tích cú pháp lên đến ký hiệu bắt đầu.
Khái niệm về nguồn gốc
Để có được chuỗi đầu vào, chúng ta cần một chuỗi các quy tắc sản xuất. Derivation là một tập hợp các quy tắc sản xuất. Trong quá trình phân tích cú pháp, chúng ta cần quyết định thiết bị đầu cuối sẽ được thay thế cùng với việc quyết định quy tắc sản xuất với sự trợ giúp của thiết bị không đầu cuối sẽ được thay thế.
Các loại nguồn gốc
Trong phần này, chúng ta sẽ tìm hiểu về hai loại dẫn xuất, có thể được sử dụng để quyết định loại không đầu cuối sẽ được thay thế bằng quy tắc sản xuất -
Xuất phát ngoài cùng bên trái
Trong phái sinh ngoài cùng bên trái, biểu mẫu thông tin của một đầu vào được quét và thay thế từ trái sang phải. Biểu mẫu thông tin gửi trong trường hợp này được gọi là biểu mẫu thông tin gửi trái.
Nguồn gốc ngoài cùng bên phải
Trong phái sinh ngoài cùng bên trái, biểu mẫu thông tin của một đầu vào được quét và thay thế từ phải sang trái. Biểu mẫu thông tin gửi trong trường hợp này được gọi là biểu mẫu thông tin gửi đúng.
Khái niệm về cây phân tích cú pháp
Nó có thể được định nghĩa là mô tả đồ họa của một dẫn xuất. Biểu tượng bắt đầu của dẫn xuất đóng vai trò là gốc của cây phân tích cú pháp. Trong mọi cây phân tích cú pháp, các nút lá là thiết bị đầu cuối và các nút bên trong là không đầu cuối. Một thuộc tính của cây phân tích cú pháp là việc duyệt theo thứ tự sẽ tạo ra chuỗi đầu vào ban đầu.
Khái niệm về ngữ pháp
Ngữ pháp là rất cần thiết và quan trọng để mô tả cấu trúc cú pháp của các chương trình được hình thành tốt. Theo nghĩa văn học, chúng biểu thị các quy tắc cú pháp để hội thoại trong ngôn ngữ tự nhiên. Ngôn ngữ học đã cố gắng xác định ngữ pháp kể từ khi ra đời các ngôn ngữ tự nhiên như tiếng Anh, tiếng Hindi, v.v.
Lý thuyết về ngôn ngữ hình thức cũng được áp dụng trong các lĩnh vực Khoa học máy tính chủ yếu là ngôn ngữ lập trình và cấu trúc dữ liệu. Ví dụ, trong ngôn ngữ 'C', các quy tắc ngữ pháp chính xác nêu rõ cách các hàm được tạo từ danh sách và câu lệnh.
Một mô hình toán học về ngữ pháp đã được đưa ra bởi Noam Chomsky vào năm 1956, hiệu quả cho việc viết ngôn ngữ máy tính.
Về mặt toán học, ngữ pháp G có thể được viết chính thức dưới dạng 4 bộ (N, T, S, P) trong đó -
N hoặc là VN = tập hợp các ký hiệu không phải đầu cuối, tức là, các biến.
T hoặc là ∑ = tập hợp các ký hiệu đầu cuối.
S = Ký hiệu bắt đầu trong đó S ∈ N
Pbiểu thị các quy tắc Sản xuất cho Thiết bị đầu cuối cũng như Thiết bị đầu cuối không. Nó có dạng α → β, trong đó α và β là các chuỗi trên V N ∪ ∑ và ít nhất một ký hiệu của α thuộc V N
Cấu trúc cụm từ hoặc ngữ pháp cấu thành
Ngữ pháp cấu trúc cụm từ, do Noam Chomsky giới thiệu, dựa trên quan hệ thành phần. Đó là lý do tại sao nó còn được gọi là ngữ pháp cấu thành. Nó ngược lại với ngữ pháp phụ thuộc.
Thí dụ
Trước khi đưa ra một ví dụ về ngữ pháp thành phần, chúng ta cần biết những điểm cơ bản về ngữ pháp thành phần và quan hệ thành phần.
Tất cả các khung liên quan đều xem cấu trúc câu theo quan hệ thành phần.
Quan hệ thành phần có nguồn gốc từ sự phân chia chủ ngữ - vị ngữ của ngữ pháp tiếng Latinh cũng như tiếng Hy Lạp.
Cấu trúc mệnh đề cơ bản được hiểu theo nghĩa của noun phrase NP và verb phrase VP.
Chúng ta có thể viết câu “This tree is illustrating the constituency relation” như sau -
Ngữ pháp phụ thuộc
Nó đối lập với ngữ pháp cấu thành và dựa trên quan hệ phụ thuộc. Nó được giới thiệu bởi Lucien Tesniere. Ngữ pháp phụ thuộc (DG) đối lập với ngữ pháp thành phần vì nó thiếu các nút cụm từ.
Thí dụ
Trước khi đưa ra ví dụ về ngữ pháp Phụ thuộc, chúng ta cần biết những điểm cơ bản về ngữ pháp Phụ thuộc và quan hệ Phụ thuộc.
Trong DG, các đơn vị ngôn ngữ, tức là các từ được kết nối với nhau bằng các liên kết có hướng.
Động từ trở thành trung tâm của cấu trúc mệnh đề.
Mọi đơn vị cú pháp khác đều được kết nối với động từ theo liên kết có hướng. Các đơn vị cú pháp này được gọi làdependencies.
Chúng ta có thể viết câu “This tree is illustrating the dependency relation” như sau;
Cây phân tích cú pháp sử dụng ngữ pháp Thành phần được gọi là cây phân tích cú pháp dựa trên thành phần; và cây phân tích cú pháp sử dụng ngữ pháp phụ thuộc được gọi là cây phân tích cú pháp dựa trên phụ thuộc.
Ngữ pháp miễn phí theo ngữ cảnh
Ngữ pháp tự do theo ngữ cảnh, còn được gọi là CFG, là một ký hiệu để mô tả các ngôn ngữ và một tập hợp ngữ pháp chính quy. Nó có thể được nhìn thấy trong sơ đồ sau:
Định nghĩa của CFG
CFG bao gồm một tập hợp hữu hạn các quy tắc ngữ pháp với bốn thành phần sau:
Tập hợp các thiết bị đầu cuối
Nó được ký hiệu là V. Các không phải đầu cuối là các biến cú pháp biểu thị các tập hợp các chuỗi, giúp xác định thêm ngôn ngữ, do ngữ pháp tạo ra.
Bộ thiết bị đầu cuối
Nó còn được gọi là mã thông báo và được định nghĩa bởi Σ. Các chuỗi được hình thành với các ký hiệu cơ bản của thiết bị đầu cuối.
Bộ sản xuất
Nó được ký hiệu là P. Tập xác định cách các thiết bị đầu cuối và thiết bị không đầu cuối có thể được kết hợp. Mọi sản xuất (P) đều bao gồm các thiết bị đầu cuối, một mũi tên và các thiết bị đầu cuối (chuỗi các thiết bị đầu cuối). Các thiết bị đầu cuối không được gọi là phía bên trái của sản xuất và các thiết bị đầu cuối được gọi là phía bên phải của sản xuất.
Biểu tượng Bắt đầu
Việc sản xuất bắt đầu từ ký hiệu bắt đầu. Nó được ký hiệu bằng ký hiệu S. Ký hiệu không đầu cuối luôn được chỉ định là ký hiệu bắt đầu.