ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI

ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ÁP DỤNG
VÀO BÀI TOÁN SỬ DỤNG TÓM TẮT ĐA VĂN BẢN ĐỂ ĐÁNH GIÁ
CHẤT LƯỢNG PHÂN CỤM DỮ LIỆU TRÊN MÁY TÌM KIẾM TIẾNG
VIỆT VNSEN
Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy
Khoa Công nghệ Thông tin, Trường Đại học Công nghệ - ĐHQG HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn

Tóm tắt
Tóm tắt đa văn bản (multi-document summarization) nhận được sự quan tâm đặc biệt tại hội nghị DUC (Document Understanding Conference) các năm 2001 – 2007. Các giải pháp tóm tắt đa văn bản có nhiều ứng dụng, chẳng hạn tóm tắt nội dung cụm dữ liệu kết quả tìm kiếm theo câu hỏi người dùng từ máy tìm kiếm. Trên cơ sở một số kết quả nghiên cứu về độ đo tương tư câu (Yuhua Li và đồng tác giả [8], P. Senellart và V. D. Blondel [14], Francisco J. Ribadas và đồng tác giả [6], Krishna Sapkota và đồng tác giả [9]) và về tóm tắt văn bản dựa theo ngữ nghĩa câu (L. Vanderwende và đồng tác giả - 2006 [10]) kết hợp phân tích chủ đề ẩn (David M. Blei và đồng tác giả - 2006 [7]), báo cáo đề xuất một mô hình tóm tắt đa văn bản tiếng Việt và phương pháp sử dụng kết quả tóm tắt của mô hình trên để đánh giá chất lượng phân cụm trên máy tìm kiếm tiếng Việt VNSEN.

Từ khoá: độ tương đồng, tóm tắt đa văn bản, chủ đề ẩn, phân cụm, máy tìm kiếm tiếng Việt VNSEN.

THE SEMANTIC SIMILARITY OF TWO SENTENCES AND
APPLICATION OF MULTI-DOCUMENT SUMMARIZATION
PROBLEMS TO ESTIMATE CLUSTER
IN VNSEN SEARCH ENGINE
Tran Mai Vu, Pham Thi Thu Uyen, Hoang Minh Hien, Ha Quang Thuy
Faculty of Information Technology, College of Technology – VNU HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn

Abstract
Multi-document summarization has been received special concern at Document Understanding Conferences (DUC) from 2001 to 2007. Some resolutions for document summarization have many applications, such as: summarize the content of cluster which is the result based on people's questions. Based on some results about sentence similarity (Yuhua Li et al. [8], P. Senellart and V. D. Blondel [14], Francisco J. Ribadas and other authors [6], Krishna Sapkota et al. [9]); document summarization based on semantic sentences (L. Vanderwende et al. [10]) and associated with analyzing hidden topic (David M. Blei et al. [17]), this paper suggests a model for Vietnamese multi-document summarization and a method to estimate cluster in VNSEN search engine.

Key words: sentence similarity, multi-document summarization, hidden topic, cluster, VNSEN.