Tóm tắt Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

docx 28 trang Khánh Chi 04/10/2025 330
Bạn đang xem tài liệu "Tóm tắt Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docxtom_tat_luan_an_nghien_cuu_nhan_dang_thuc_the_co_ten_va_thuc.docx

Nội dung tài liệu: Tóm tắt Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018
  2. Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS.TS. Hà Quang Thụy PGS.TS. Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS. Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại vào hồi 9 giờ ngày 07 tháng 02 năm 2018 Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội
  3. DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014. 2. [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, Dietrich Rebholz- Schuhmann (2013). Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re- Ranking. PLoS ONE 8(10): e72965, October 2013. 3. [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker and Part-of-Speech tools, RIVF-VLSP 2013 Workshop. 4. [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012). A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647- 662. 5. [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012. 6. [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named i
  4. Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115-118. 7. [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015. ii
  5. MỞ ĐẦU Lý do chọn đề tài Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là “nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet, bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây. Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông thường trong văn bản tiếng Anh chuẩn tuy nhiên những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng Luận án này sẽ tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học. 1
  6. Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên. Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây: • Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh học trong văn bản tiếng Anh. • Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu trước đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu đang xem xét. • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm. • Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề xuất. • Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan. • Định hướng phát triển nâng cấp nghiên cứu. Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế. Các kết quả nghiên cứu lý thuyết trên đây được công bố trong một số ấn phẩm khoa học có uy tín là minh chứng cho ý nghĩa khoa học của luận án. 2
  7. Về triển khai ứng dụng, luận án đã đề xuất thực mô hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA6]. Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn. Cấu trúc của luận án • Chương 1 của luận án hệ thống lại các lý thuyết cơ bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một số nghiên cứu tiêu biểu. • Chương 2 trình bày về bài toán nhận dạng thực thể và ứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt. • Chương 3 trình bày một mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu y sinh học • Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đề xuất trong chương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh. • Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của luận án, và đồng thời trình bày một số định hướng nghiên cứu trong tương lai. 3
  8. CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1. Một số khái niệm cơ bản 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử dụng định nghĩa của bài toán nhận dạng thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm.” 1.1.2. Thách thức Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít thách thức cần giải quyết do sự phong phú và các nhập nhằng của ngôn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó. Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể "JFK" hay “Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa nó. Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải thực hiện một số bài toán 4
  9. con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể. Ngoài ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng. 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính xác (precision - P), độ hồi tưởng (recall - R) và độ đo F1 (F1-measure). Độ chính xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương của hệ thống. 1.1.4. Ứng dụng của nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng sau: • Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể và một khái niệm [GLR06]. Thành phần nhận diện thực thể là pha đầu tiên trước khi giải quyết vấn đề xác định quan hệ. • Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách và tại sao. Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các thành phần cấu thành nên sự kiện. • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là một yếu tố làm tăng 5
  10. khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong hệ thống [HWY05]. 1.2. Lịch sử nghiên cứu và một số hướng tiếp cận giải quyết bài toán Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 90 [RA91], nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6 với tư cách là một bài toán con của trích xuất thông tin [GS96]. Kể từ đó, NER đã thu hút nhiều sự chú ý của cộng đồng nghiên cứu. Đã có khá nhiều hệ thống và chương trình được xây dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction 1, các công bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 và 2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo BioCreative 2 (Critical Assessment of Information Extraction Systems in Biology). Các nghiên cứu đạt hiệu quả cao đối với nhận dạng thực thể thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số đó xử lý bài toán này như một bài toán gán nhãn chuỗi (sequence labeling). Một trong những phương pháp học máy đầu tiên được áp dụng cho NER là mô hình Markov ẩn (Hidden Markov Models, HMM). Các phương pháp học máy cho NER được xây dựng sau đó đã có một sự chuyển dịch từ mô hình sinh như HMM sang mô hình mô 1 Automatic content extraction (ACE) evaluation. 2 6