ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU
VÀ ÁP DỤNG
VÀO BÀI TOÁN SỬ DỤNG TÓM TẮT ĐA VĂN BẢN ĐỂ ĐÁNH GIÁ
CHẤT LƯỢNG PHÂN CỤM DỮ LIỆU TRÊN MÁY TÌM KIẾM TIẾNG
VIỆT VNSEN
Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy
Khoa Công nghệ Thông tin, Trường Đại học Công nghệ - ĐHQG HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn
Tóm tắt
Tóm tắt đa văn bản (multi-document summarization) nhận được
sự quan tâm đặc biệt tại hội nghị DUC (Document Understanding Conference) các
năm 2001 – 2007. Các giải pháp tóm tắt đa văn bản có nhiều ứng dụng, chẳng hạn
tóm tắt nội dung cụm dữ liệu kết quả tìm kiếm theo câu hỏi người dùng từ máy tìm
kiếm. Trên cơ sở một số kết quả nghiên cứu về độ đo tương tư câu (Yuhua Li và
đồng tác giả [8], P. Senellart và V. D. Blondel [14], Francisco J. Ribadas và
đồng tác giả [6], Krishna Sapkota và đồng tác giả [9]) và về tóm tắt văn bản dựa
theo ngữ nghĩa câu (L. Vanderwende và đồng tác giả - 2006 [10]) kết hợp phân
tích chủ đề ẩn (David M. Blei và đồng tác giả - 2006 [7]), báo cáo đề xuất một
mô hình tóm tắt đa văn bản tiếng Việt và phương pháp sử dụng kết quả tóm tắt của
mô hình trên để đánh giá chất lượng phân cụm trên máy tìm kiếm tiếng Việt VNSEN.
Từ khoá: độ tương đồng, tóm tắt đa văn bản, chủ đề ẩn, phân
cụm, máy tìm kiếm tiếng Việt VNSEN.
THE SEMANTIC SIMILARITY OF TWO SENTENCES AND
APPLICATION OF MULTI-DOCUMENT SUMMARIZATION
PROBLEMS TO ESTIMATE CLUSTER
IN VNSEN SEARCH ENGINE
Tran Mai Vu, Pham Thi Thu Uyen, Hoang Minh Hien, Ha Quang Thuy
Faculty of Information Technology, College of Technology – VNU HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn
Abstract
Multi-document summarization has been received special
concern at Document Understanding Conferences (DUC) from 2001 to 2007. Some
resolutions for document summarization have many applications, such as:
summarize the content of cluster which is the result based on people's
questions. Based on some results about sentence similarity (Yuhua Li et al. [8],
P. Senellart and V. D. Blondel [14], Francisco J. Ribadas and other authors [6],
Krishna Sapkota et al. [9]); document summarization based on semantic sentences
(L. Vanderwende et al. [10]) and associated with analyzing hidden topic (David
M. Blei et al. [17]), this paper suggests a model for Vietnamese multi-document
summarization and a method to estimate cluster in VNSEN search engine.
Key words: sentence similarity, multi-document summarization,
hidden topic, cluster, VNSEN.
|