Luận án Nghiên cứu nâng cao hiệu quả phân tích cú pháp Tiếng Việt theo tiếp cận học máy thống kê

pdf 193 trang Khánh Chi 08/05/2025 140
Bạn đang xem 30 trang mẫu của tài liệu "Luận án Nghiên cứu nâng cao hiệu quả phân tích cú pháp Tiếng Việt theo tiếp cận học máy thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_an_nghien_cuu_nang_cao_hieu_qua_phan_tich_cu_phap_tieng.pdf

Nội dung tài liệu: Luận án Nghiên cứu nâng cao hiệu quả phân tích cú pháp Tiếng Việt theo tiếp cận học máy thống kê

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ Chuyên ngành: Cơ sở toán cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương PGS.TS. Đỗ Trung Tuấn XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Chủ tịch hội đồng đánh giá Người hướng dẫn khoa học Luận án Tiến sĩ PGS.TS. Phan Xuân Hiếu TS. Lê Hồng Phương Hà Nội - 2020
  3. Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi. Các số liệu sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúng quy định. Các kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nào khác. Hà Nội, ngày 10 tháng 3 năm 2020 Nghiên cứu sinh Nguyễn Thị Lương
  4. Lời cảm ơn Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó. Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Hồng Phương, PGS.TS. Đỗ Trung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôi hoàn thành luận án này. Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệ Thông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện và hoàn thành luận án này. Hà Nội, ngày 10 tháng 3 năm 2020 Nghiên cứu sinh Nguyễn Thị Lương
  5. Mục lục Danh sách bảng iv Danh sách hình vẽ vii Mở đầu 1 1 Cơ sở lý thuyết 7 1.1 Khái niệm cơ bản trong tiếng Việt . . . . . . . . . . . . . . . .7 1.1.1 Từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 1.1.2 Từ loại . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 1.1.3 Cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.4 Câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.1.5 Cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.6 Vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 Cú pháp thành phần . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.1 Bài toán phân tích cú pháp thành phần . . . . . . . . . 21 1.2.2 Phương pháp phân tích cú pháp thành phần . . . . . . . 22 1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 25 1.3 Cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3.1 Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . 28 1.3.2 Biểu diễn cú pháp phụ thuộc . . . . . . . . . . . . . . . 29 1.3.3 Các thuật toán phân tích cú pháp phụ thuộc . . . . . . . 31 1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc . 37 1.4 Gán nhãn vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.4.1 Bài toán gán nhãn vai nghĩa . . . . . . . . . . . . . . . . 43 1.4.2 Các công trình liên quan . . . . . . . . . . . . . . . . . . 44 1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa . . . . . . . 48 1.5 Biểu diễn phân bố từ . . . . . . . . . . . . . . . . . . . . . . . . 49 1.5.1 Mô hình Skip-gram . . . . . . . . . . . . . . . . . . . . . 50 1.5.2 Mô hình túi từ liên tục . . . . . . . . . . . . . . . . . . . 51 1.5.3 Mô hình GloVe . . . . . . . . . . . . . . . . . . . . . . . 52 1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu . . . . . . . . . . . . 52 1.6 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 i
  6. 2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt 55 2.1 Kho ngữ liệu Treebank . . . . . . . . . . . . . . . . . . . . . . . 56 2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc . . . . . . . 57 2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt . . . . . . . . . . 59 2.2.2 Xác định cụm từ trung tâm . . . . . . . . . . . . . . . . 69 2.2.3 Xác định nhãn phụ thuộc . . . . . . . . . . . . . . . . . 70 2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . 70 2.2.5 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt . . . . . . 78 2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt . . . . . . . . . . . . . 78 2.3.2 Tập luật gán nhãn nhãn vai nghĩa . . . . . . . . . . . . . 81 2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô . . . 82 2.3.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 82 2.4 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt 86 3.1 Phân tích cú pháp thành phần . . . . . . . . . . . . . . . . . . . 87 3.1.1 Một số văn phạm phổ biến . . . . . . . . . . . . . . . . . 87 3.1.2 Phương pháp phân tích Shift-Reduce . . . . . . . . . . . 92 3.1.3 Phương pháp self-attention . . . . . . . . . . . . . . . . . 99 3.1.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 102 3.1.5 Kết luận phân tích cú pháp thành phần . . . . . . . . . 112 3.2 Phân tích cú pháp phụ thuộc tiếng Việt . . . . . . . . . . . . . 113 3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển . . . 113 3.2.2 Phân tích cú pháp dựa trên đồ thị . . . . . . . . . . . . 116 3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc . . 118 3.2.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 122 3.2.5 Kết luận phân tích cú pháp phụ thuộc . . . . . . . . . . 128 3.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa tiếng Việt 130 4.1 Mô tả thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.1.1 Khảo sát một số phương pháp . . . . . . . . . . . . . . . 130 4.1.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . 132 ii
  7. 4.2 Quy hoạch tuyến tính nguyên . . . . . . . . . . . . . . . . . . . 135 4.3 Tập đặc trưng sử dụng . . . . . . . . . . . . . . . . . . . . . . . 138 4.3.1 Đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . . . . 138 4.3.2 Đặc trưng mới . . . . . . . . . . . . . . . . . . . . . . . . 139 4.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.4.1 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . 139 4.4.2 Hệ thống cơ bản . . . . . . . . . . . . . . . . . . . . . . 139 4.4.3 Chiến lược gán nhãn . . . . . . . . . . . . . . . . . . . . 140 4.4.4 Phân tích đặc trưng . . . . . . . . . . . . . . . . . . . . 141 4.4.5 Cải tiến dựa vào ILP . . . . . . . . . . . . . . . . . . . . 141 4.4.6 Tốc độ học . . . . . . . . . . . . . . . . . . . . . . . . . 144 4.4.7 Sử dụng biểu diễn phân bố từ trong SRL . . . . . . . . . 145 4.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Kết luận 146 Các công trình công bố của luận án 148 Tài liệu tham khảo 150 Phụ lục 159 iii
  8. Danh sách bảng 1.1 Tập nhãn từ loại tiếng Việt. . . . . . . . . . . . . . . . . . . . .9 1.2 Tập nhãn cụm từ tiếng Việt. . . . . . . . . . . . . . . . . . . . . 11 1.3 Tổ chức câu trong tiếng Việt. . . . . . . . . . . . . . . . . . . . 12 1.4 Tập nhãn mệnh đề tiếng Việt. . . . . . . . . . . . . . . . . . . . 14 1.5 Tập nhãn chức năng cú pháp tiếng Việt. . . . . . . . . . . . . . 17 1.6 Các đặc trưng dùng trong MSTParser . . . . . . . . . . . . . . . 33 1.7 Các đặc trưng dùng trong MaltParser . . . . . . . . . . . . . . . 36 1.8 Ví dụ về phân tích cú pháp dựa vào các bước chuyển. . . . . . . 38 1.9 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Anh và tiếng Trung . . . . . . . . . . . . . . . . . . . . . . 40 1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes . . . . . . . . 48 2.1 Thống kê nhãn thành phần trong kho viettreebank . . . . . . . 57 2.2 Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt . . . . . . . 58 2.3 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD). . . . 68 2.4 Tập quy tắc xác định phần tử trung tâm. . . . . . . . . . . . . . 69 2.5 Một số luật sử dụng để xác định nhãn phụ thuộc . . . . . . . . 70 2.6 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích. . 76 2.7 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.8 Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] . . . . . . . . 77 2.9 Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] . . . . . . . . . 77 2.10 Tập nhãn phụ trợ tiếng Việt . . . . . . . . . . . . . . . . . . . . 79 2.11 Một số luật xác định gán nhãn vai nghĩa thô . . . . . . . . . . . 81 2.12 Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô . . . . . . . 82 2.13 Một số nhãn vai nghĩa phổ biến . . . . . . . . . . . . . . . . . . 83 2.14 Một số câu tiếng Việt gán nhãn vai nghĩa . . . . . . . . . . . . . 85 3.1 Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce . . . . . 94 3.2 Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng . . 95 iv
  9. 3.3 Tập mẫu đặc trưng mở rộng . . . . . . . . . . . . . . . . . . . . 95 3.4 Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom không còn người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.5 Tập đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 98 3.6 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt . . . . 98 3.7 Kết quả với tập dữ liệu có số từ 10 ............... 103 ≤ 3.8 Kết quả với tập dữ liệu có số từ 35 ............... 103 ≤ 3.9 Một số kết quả phân tích theo mô hình tích hợp đặc trưng phân bốtừ................................. 104 3.10 So sánh F1 sử dụng đặc trưng CharLSTM và EMLo . . . . . . . 105 3.11 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharL- STM................................. 105 3.12 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106 3.13 Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt . 106 3.14 Kết quả của MaltParser. . . . . . . . . . . . . . . . . . . . . . . 116 3.15 Kết quả của MSTParser. . . . . . . . . . . . . . . . . . . . . . . 118 3.16 Đặc trưng MaltParser cho tiếng Việt . . . . . . . . . . . . . . . 124 3.17 Đặc trưng MSTParser cho tiếng Việt . . . . . . . . . . . . . . . 124 3.18 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các bước chuyển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.19 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126 3.20 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126 3.21 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127 3.22 Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127 3.23 Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc trên VTB_UD . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 3.24 Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD . 128 4.1 Độ chính xác của 3 thuật toán rút trích . . . . . . . . . . . . . . 139 4.2 Độ chính xác của hệ thống cơ bản . . . . . . . . . . . . . . . . . 140 4.3 Độ chính xác của 2 chiến lược gán nhãn . . . . . . . . . . . . . 140 4.4 Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 4.5 Độ chính xác của tập đặc trưng trong bảng 4.4 . . . . . . . . . 141 4.6 Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.7 Độ chính xác của tập đặc trưng trong bảng 4.6 . . . . . . . . . 142 4.8 Ảnh hưởng của ILP . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.9 Độ chính xác của mỗi loại đối số . . . . . . . . . . . . . . . . . . 143 v
  10. 4.10 Độ chính xác của 2 thuật toán rút trích . . . . . . . . . . . . . . 144 4.11 Độ chính xác của hệ thống . . . . . . . . . . . . . . . . . . . . . 144 4.12 Ảnh hưởng véctơ từ của vị tự . . . . . . . . . . . . . . . . . . . 145 4.13 Ảnh hưởng véctơ từ của từ chính . . . . . . . . . . . . . . . . . 145 vi