HỎI ĐÁP TIẾNG VIỆT DỰA VÀO
KĨ THUẬT RÚT TRÍCH QUAN HỆ KHÔNG GIÁM SÁT
Phan Huỳnh Cẩm Tú, Nguyễn Đức Thái, Đặng Bác Văn, Hồ Bảo Quốc
Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – ĐHQG Tp. HCM
{camtuphanhuynh2004, ndthaiit}@yahoo.com, {dbvan, hbquoc}@fit.hcmuns.edu.vn
Tóm tắt
Trong khi các hệ thống tìm kiếm thông tin chỉ có thể cung cấp
cho chúng ta các tài liệu liên quan và ta phải tự tìm trong đó câu trả lời cho
nhu cầu thông tin của mình, hệ thống hỏi đáp lại có thể cho ta câu trả lời chính
xác chứ không phải một tập tài liệu. Tuy nhiên để có thể có câu trả lời thường
phải sử dụng nhiều kỹ thuật của xử lý ngôn ngữ tự nhiên cũng như các tài nguyên
ngôn ngữ học. Yêu cầu này càng trở nên khó hơn đối với tiếng Việt, do hiện tại
chúng ta chưa có nhiều công cụ cũng như tài nguyên cho xử lý tự động tiếng Việt.
Trong bài báo này, chúng tôi đề xuất áp dụng kỹ thuật rút trích quan hệ dựa trên
học không giám sát vào giải quyết bài toán hỏi đáp bằng tiếng Việt. Kết quả thực
nghiệm chứng minh được phương pháp chúng tôi đề xuất khá hiệu quả, dù không cần
tài nguyên ngôn ngữ nhưng vẫn đạt độ chính xác rất cao (100%); và phương pháp
này còn nâng cao hiệu quả của
hệ thống hỏi đáp so với việc sử dụng kỹ thuật truy tìm đoạn văn bản (passage
retrieval) thông thường.
Từ khoá: hệ thống hỏi đáp, tìm kiếm thông tin, rút trích
thông tin, rút trích quan hệ, học không giám sát
VIETNAMESE QUESTION ANSWERING BASED ON
UNSUPERVISED RELATION EXTRACTION
Phan Huynh Cam Tu, Nguyen Đuc Thai, Đang Bac Van, Ho Bao Quoc
Faculty of Information Technology, University of Science – VNU HCMC
{camtuphanhuynh2004, ndthaiit}@yahoo.com, {dbvan, hbquoc}@fit.hcmuns.edu.vn
Abstract
Question Answering (QA) systems try to give the correct
answer to one question instead of a list of documents related to Key words in
the question as in the information retrieval (IR) systems. Therefore, the QA
system needs a lot of natural language processing (NLP) techniques as well as
linguistics resources. However, we do not have enough NLP tools and resources
for Vietnamese, which makes many of the text processing researches in this
language, including Question Answering, infeasible. In this paper, we propose to
apply an unsupervised relation extraction technique to facilitate Vietnamese QA
systems. The experiment shows that our approach is very prosperous – it has high
precision (100% on our test collection) when used separately and it can improve
the performance of QA systems based on passage retrieval when integrated into
those systems.
Key words: question answering, information retrieval,
information extraction, relation extraction, unsupervised learning.
|