Luận án Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh. Ứng dụng cho dịch máy theo miền
Bạn đang xem 30 trang mẫu của tài liệu "Luận án Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh. Ứng dụng cho dịch máy theo miền", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
luan_an_nghien_cuu_xay_dung_tai_nguyen_song_ngu_viet_anh_ung.pdf
Nội dung tài liệu: Luận án Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh. Ứng dụng cho dịch máy theo miền
- ĐẠI HÅC QUÈC GIA HÀ NËI TRƯỜNG ĐẠI HÅC KHOA HÅC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN LUẬN ÁN TIẾN SĨ TOÁN HÅC Hà Nëi - 2020
- ĐẠI HÅC QUÈC GIA HÀ NËI TRƯỜNG ĐẠI HÅC KHOA HÅC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN Chuy¶n ngành: Cơ sở to¡n học cho tin học M¢ sè: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HÅC NGƯỜI HƯỚNG DẪN KHOA HÅC: 1. TS. Nguy¹n Thị Minh Huy·n 2. PGS.TS. Nguy¹n Húu Ngự Hà Nëi - 2020
- LÍI CAM ĐOAN Tôi xin cam đoan c¡c nëi dung tr¼nh bày trong luªn ¡n này là k¸t qu£ nghi¶n cùu cõa tôi, được thực hi»n dưới sự hướng d¨n cõa TS. Nguy¹n Thị Minh Huy·n và PGS. TS. Nguy¹n Húu Ngự. C¡c nëi dung tr½ch d¨n tø c¡c nghi¶n cùu cõa c¡c t¡c gi£ kh¡c tr¼nh bày trong luªn ¡n này được ghi rã nguồn trong ph¦n tài li»u tham kh£o. Nguy¹n Ti¸n Hà
- LÍI CẢM ƠN Tôi xin gûi lời c£m ơn s¥u sc đến TS. Nguy¹n Thị Minh Huy·n và PGS.TS. Nguy¹n Húu Ngự đã trực ti¸p hướng d¨n, ch¿ b£o tªn t¼nh, luôn hé trñ và t¤o nhúng đi·u ki»n tèt nh§t cho tôi trong qu¡ tr¼nh học tªp và nghi¶n cùu. Tôi xin gûi lời c£m ơn đến c¡c th¦y/cô gi¡o ở Khoa To¡n - Cơ - Tin học, Trường Đại học Khoa học Tự nhi¶n, Đại học Quèc gia Hà Nëi, đặc bi»t là c¡c th¦y/cô gi¡o ở Bë môn Tin học, nhúng người đã trực ti¸p gi£ng d¤y và giúp đỡ tôi trong qu¡ tr¼nh học tªp và nghi¶n cùu ở trường. Tôi xin gûi c£m ơn đến TS. Nguy¹n V«n Vinh, PGS. TS. Nguy¹n Phương Th¡i, PGS. TS Phan Xu¥n Hi¸u Trường Đại học Công ngh», Đại học Quèc gia Hà Nëi; TS. Tr¦n Thị Oanh khoa Quèc t¸, Đại học Quèc gia Hà Nëi; PGS. TS. L¶ Thanh Hương, TS. Đỗ Thị Ngọc Di»p Trường Đại học B¡ch khoa Hà Nëi; PGS. TS Đỗ Trung Tu§n, TS. Đỗ Thanh Hà, TS. L¶ Hồng Phương, PGS. TS. L¶ Trọng Vĩnh, TS. Nguy¹n Thị B½ch Thõy, TS. Vũ Ti¸n Dũng Trường Đại học Khoa học Tự nhi¶n, Đại học Quèc gia Hà Nëi, c¡c th¦y/cô đã có nhúng góp ý ch¿nh sûa để tôi hoàn thi»n luªn ¡n. Tôi xin gûi lời c£m ơn đến t§t c£ anh, chị, em ở Bë môn Tin học, Khoa To¡n- Cơ-Tin học, Trường đ¤i học khoa học Tự nhi¶n, Đại học Quèc gia Hà Nëi và Bë môn Khoa học m¡y t½nh, Khoa Công ngh» thông tin, Trường Đại học Công ngh», Đại học Quèc gia Hà Nëi đã giúp đỡ tôi trong thời gian làm nghi¶n cùu sinh. Cuèi cùng, tôi xin gûi lời c£m ơn đến t§t c£ c¡c thành vi¶n trong gia đình, c¡c b¤n b±, đồng nghi»p nơi tôi công t¡c đã luôn õng hë, chia s´, động vi¶n và kh½ch l» tôi học tªp, nghi¶n cùu.
- Mục lục Danh mục c¡c chú vi¸t tt 4 Mở đầu 9 1 Têng quan v· dịch m¡y và tài nguy¶n ngôn ngú 15 1.1 Têng quan v· dịch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.1 Lịch sû v· dịch m¡y . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Ki¸n trúc cõa h» thèng dịch m¡y . . . . . . . . . . . . . . . 19 1.1.3 C¡c phương ph¡p dịch m¡y . . . . . . . . . . . . . . . . . . 22 1.1.4 C¡c h» thèng dịch m¡y có thº sû dụng để thực nghi»m . . 30 1.1.5 Đánh gi¡ c¡c h» thèng dịch m¡y . . . . . . . . . . . . . . . 32 1.2 Tài nguy¶n ngôn ngú cho h» thèng dịch m¡y . . . . . . . . . . . . 35 1.2.1 Tài nguy¶n đa ngú cho dịch m¡y . . . . . . . . . . . . . . . 35 1.2.2 Tài nguy¶n song ngú Vi»t-Anh . . . . . . . . . . . . . . . . 38 1.3 Th½ch ùng mi·n trong dịch m¡y . . . . . . . . . . . . . . . . . . . . 41 1.4 C¡c công cụ ti·n xû lý v«n b£n . . . . . . . . . . . . . . . . . . . . 43 1.5 K¸t luªn chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2 X¥y dựng kho ngú li»u song ngú Vi»t - Anh dóng hàng mùc c¥u theo mi·n 47 2.1 X¥y dựng kho ngú li»u song ngú Vi»t-Anh theo mi·n . . . . . . . 48 2.1.1 Phương ph¡p thu thªp ngú li»u song ngú và dóng hàng c¥u 48 1
- 2.1.2 X¥y dựng kho ngú li»u song ngú Vi»t - Anh mi·n du lịch . 49 2.2 Dóng hàng v«n b£n song ngú Vi»t-Anh . . . . . . . . . . . . . . . 52 2.2.1 Phương ph¡p dóng hàng v«n b£n song ngú mùc c¥u . . . . 52 2.2.2 C£i ti¸n công cụ dóng hàng c¥u XAlign . . . . . . . . . . . 54 2.3 Ứng dụng kho ngú li»u du lịch song ngú Vi»t-Anh cho h» thèng dịch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.1 K¸t qu£ thực nghi»m . . . . . . . . . . . . . . . . . . . . . . 65 2.3.2 Mët sè léi cõa h» thèng dịch . . . . . . . . . . . . . . . . . 68 2.4 K¸t luªn chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3 X¥y dựng kho ngú li»u tø, cụm tø song ngú Vi»t-Anh 72 3.1 X¥y dựng tự động kho tø vựng song ngú Vi»t - Anh . . . . . . . . 73 3.1.1 X¥y dựng kho tø vựng song ngú . . . . . . . . . . . . . . . 73 3.1.2 Phương ph¡p x¥y dựng tự động tø vựng song ngú Vi»t-Anh 77 3.1.3 Phương ph¡p x¥y dựng tự động tø vựng song ngú Vi»t- Anh mi·n du lịch . . . . . . . . . . . . . . . . . . . . . . . . 79 3.1.4 Thực nghi»m và k¸t qu£ . . . . . . . . . . . . . . . . . . . . 84 3.2 Tr½ch rút thuªt ngú song ngú Vi»t-Anh tø v«n b£n đơn ngú ti¸ng Vi»t dựa vào tªp luªt . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.2.1 C¡c công tr¼nh nghi¶n cùu có li¶n quan . . . . . . . . . . . 90 3.2.2 Phương ph¡p tr½ch rút thuªt ngú song ngú Vi»t-Anh tø v«n b£n đơn ngú ti¸ng Vi»t . . . . . . . . . . . . . . . . . . 93 3.2.3 Thực nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.3 K¸t luªn chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4 Khai th¡c kho ngú li»u song ngú Vi»t-Anh cho dịch m¡y 108 4.1 Ti·n xû lý dú li»u hu§n luy»n trong dịch m¡y nơ-ron . . . . . . . . 108 4.1.1 Phương ph¡p ti·n xû lý c¥u dài trong dịch m¡y nơ-ron . . 110 2
- 4.1.2 Phương ph¡p tr½ch rút cụm tø ExtPhrase ......... 112 4.1.3 Thực nghi»m và k¸t qu£ . . . . . . . . . . . . . . . . . . . . 115 4.2 Phương ph¡p sinh tự động chú gi£i ti¸ng Vi»t cho h¼nh £nh . . . . 119 4.2.1 C¡c công tr¼nh có li¶n quan đến sinh chú gi£i cho £nh . . . 119 4.2.2 Đề xu§t quy tr¼nh x¥y dựng h» thèng sinh chú gi£i ti¸ng Vi»t cho £nh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.3 K¸t luªn chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 K¸t luªn 131 Danh mục công tr¼nh khoa học cõa t¡c gi£ li¶n quan đến luªn ¡n 133 Tài li»u tham kh£o 135 3
- Danh mục c¡c chú vi¸t tt ALPAC Automatic Language Processing Advisory Committee (Hëi đồng cè v§n xû lý ngôn ngú tự đëng) BiTES Bilingual Term Extraction System (H» thèng tr½ch rút thuªt ngú song ngú) BLEU BiLingual Evaluation Understudy (Ch¿ sè đánh gi¡ ch§t lưñng dịch song ngú) CNN Convolutional Neural Network (M¤ng nơ-ron t½ch chªp) DTW Dynamic Time Warping (Thuªt to¡n c«n ch¿nh thời gian động) GRU Gated Recurrent Unit (Đơn vị hồi quy cêng) LSTM Long Short Term Memory (Bë nhớ dài ngn h¤n) MI Mutual Information (Thông tin tương hé) NLP Natural Language Processing (Xû lý ngôn ngú tự nhi¶n) NMT Neural Machine Translation (Dịch m¡y m¤ng nơ-ron) OPUS The open parallel corpus (Kho ngú li»u song song mở) PBSMT Phrase-Based Statistical Machine Translation (Dịch m¡y dựa tr¶n cụm tø) PER Position-independent word Error Rate (Tỷ l» léi tø độc lªp vị tr½) RNN Recurrent Neural Network (M¤ng nơ-ron hồi quy) SMT Statistical Machine Translation (Dịch m¡y thèng k¶) SALM Suffix Array tool kit for empirical Language Manipulations (Công cụ lọc b£ng cụm tø trong Moses) 4
- TER Translation Error Rate (Tỷ l» léi dịch) TV Television (Truy·n h¼nh) VLSP Vietnamese Language Speech Processing (Xû lý ngôn ngú và ti¸ng nói ti¸ng Vi»t) WER Word Error Rate (Tỷ l» léi tø) 5
- Danh s¡ch h¼nh v³ 1.1 Tam gi¡c Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2 Mô h¼nh dịch trực ti¸p . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3 Mô h¼nh dịch qua ngôn ngú trung gian . . . . . . . . . . . . . . . 22 1.4 Mô h¼nh dịch m¡y thèng k¶ . . . . . . . . . . . . . . . . . . . . . . 24 1.5 C§u trúc cõa h» thèng dịch m¡y dựa tr¶n m¤ng nơ-ron . . . . . . 27 1.6 C§u trúc cõa h» thèng dịch m¡y MOSES . . . . . . . . . . . . . . 30 3.1 Phương ph¡p x¥y dựng tự động tø vựng Vi»t-Anh . . . . . . . . . 77 3.2 Phương ph¡p x¥y dựng tự động tø điển Vi»t-Anh mi·n du lịch . . 82 3.3 Mô h¼nh tr½ch rút thuªt ngú song ngú Vi»t-Anh tø v«n b£n ti¸ng Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.4 Mô h¼nh ¡p dụng c¡c luªt để lựa chọn c¡c ùng vi¶n là thuªt ngú song ngú Vi»t-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1 Mô h¼nh chú ý toàn cục . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2 Mô h¼nh chú ý cục bë. . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.3 Mô h¼nh ti·n xû lý c¥u dài hơn 30 tø trong hu§n luy»n h» thèng dịchm¡y.................................. 113 4.4 Điểm BLEU cõa c¡c h» thèng theo độ dài tø ti¸ng Vi»t được coi là c¥u ti¸ng Vi»t dài . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.5 Mô h¼nh chú gi£i ti¸ng Vi»t cho £nh . . . . . . . . . . . . . . . . . 123 4.6 So s¡nh ch§t lượng dịch m¡y với Google . . . . . . . . . . . . . . . 125 6