HỎI ĐÁP TIẾNG VIỆT DỰA VÀO KĨ TH

HỎI ĐÁP TIẾNG VIỆT DỰA VÀO
KĨ THUẬT RÚT TRÍCH QUAN HỆ KHÔNG GIÁM SÁT
Phan Huỳnh Cẩm Tú, Nguyễn Đức Thái, Đặng Bác Văn, Hồ Bảo Quốc
Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – ĐHQG Tp. HCM
{camtuphanhuynh2004, ndthaiit}@yahoo.com, {dbvan, hbquoc}@fit.hcmuns.edu.vn

 


Tóm tắt
    Trong khi các hệ thống tìm kiếm thông tin chỉ có thể cung cấp cho chúng ta các tài liệu liên quan và ta phải tự tìm trong đó câu trả lời cho nhu cầu thông tin của mình, hệ thống hỏi đáp lại có thể cho ta câu trả lời chính xác chứ không phải một tập tài liệu. Tuy nhiên để có thể có câu trả lời thường phải sử dụng nhiều kỹ thuật của xử lý ngôn ngữ tự nhiên cũng như các tài nguyên ngôn ngữ học. Yêu cầu này càng trở nên khó hơn đối với tiếng Việt, do hiện tại chúng ta chưa có nhiều công cụ cũng như tài nguyên cho xử lý tự động tiếng Việt. Trong bài báo này, chúng tôi đề xuất áp dụng kỹ thuật rút trích quan hệ dựa trên học không giám sát vào giải quyết bài toán hỏi đáp bằng tiếng Việt. Kết quả thực nghiệm chứng minh được phương pháp chúng tôi đề xuất khá hiệu quả, dù không cần tài nguyên ngôn ngữ nhưng vẫn đạt độ chính xác rất cao (100%); và phương pháp này còn nâng cao hiệu quả của
hệ thống hỏi đáp so với việc sử dụng kỹ thuật truy tìm đoạn văn bản (passage retrieval) thông thường.

 


    Từ khoá: hệ thống hỏi đáp, tìm kiếm thông tin, rút trích thông tin, rút trích quan hệ, học không giám sát

 

 


VIETNAMESE QUESTION ANSWERING BASED ON
UNSUPERVISED RELATION EXTRACTION
Phan Huynh Cam Tu, Nguyen Đuc Thai, Đang Bac Van, Ho Bao Quoc
Faculty of Information Technology, University of Science – VNU HCMC
{camtuphanhuynh2004, ndthaiit}@yahoo.com, {dbvan, hbquoc}@fit.hcmuns.edu.vn

 


Abstract
    Question Answering (QA) systems try to give the correct answer to one question instead of a list of documents related to Key words in the question as in the information retrieval (IR) systems. Therefore, the QA system needs a lot of natural language processing (NLP) techniques as well as linguistics resources. However, we do not have enough NLP tools and resources for Vietnamese, which makes many of the text processing researches in this language, including Question Answering, infeasible. In this paper, we propose to apply an unsupervised relation extraction technique to facilitate Vietnamese QA systems. The experiment shows that our approach is very prosperous – it has high precision (100% on our test collection) when used separately and it can improve the performance of QA systems based on passage retrieval when integrated into those systems.

 


    Key words: question answering, information retrieval, information extraction, relation extraction, unsupervised learning.