?? T??NG ??NG NG? NGH?A GI?A HAI

?? T??NG ??NG NG? NGH?A GI?A HAI C?U V? ?P D?NG
V?O B?I TO?N S? D?NG T?M T?T ?A V?N B?N ?? ??NH GI?
CH?T L??NG PH?N C?M D? LI?U TR?N M?Y T?M KI?M TI?NG
VI?T VNSEN
Tr?n Mai V?, Ph?m Th? Thu Uyên, Hoàng Minh Hi?n, Hà Quang Th?y
Khoa C?ng ngh? Th?ng tin, Tr??ng ??i h?c C?ng ngh? - ?HQG HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn

 


Tóm t?t
    Tóm t?t ?a v?n b?n (multi-document summarization) nh?n ???c s? quan t?m ??c bi?t t?i h?i ngh? DUC (Document Understanding Conference) các n?m 2001 – 2007. Các gi?i pháp tóm t?t ?a v?n b?n có nhi?u ?ng d?ng, ch?ng h?n tóm t?t n?i dung c?m d? li?u k?t qu? tìm ki?m theo c?u h?i ng??i dùng t? máy tìm ki?m. Trên c? s? m?t s? k?t qu? nghiên c?u v? ?? ?o t??ng t? c?u (Yuhua Li và ??ng tác gi? [8], P. Senellart và V. D. Blondel [14], Francisco J. Ribadas và ??ng tác gi? [6], Krishna Sapkota và ??ng tác gi? [9]) và v? tóm t?t v?n b?n d?a theo ng? ngh?a c?u (L. Vanderwende và ??ng tác gi? - 2006 [10]) k?t h?p ph?n tích ch? ?? ?n (David M. Blei và ??ng tác gi? - 2006 [7]), báo cáo ?? xu?t m?t m? hình tóm t?t ?a v?n b?n ti?ng Vi?t và ph??ng pháp s? d?ng k?t qu? tóm t?t c?a m? hình trên ?? ?ánh giá ch?t l??ng ph?n c?m trên máy tìm ki?m ti?ng Vi?t VNSEN.

 


    T? khoá: ?? t??ng ??ng, tóm t?t ?a v?n b?n, ch? ?? ?n, ph?n c?m, máy tìm ki?m ti?ng Vi?t VNSEN.

 

 


THE SEMANTIC SIMILARITY OF TWO SENTENCES AND
APPLICATION OF MULTI-DOCUMENT SUMMARIZATION
PROBLEMS TO ESTIMATE CLUSTER
IN VNSEN SEARCH ENGINE
Tran Mai Vu, Pham Thi Thu Uyen, Hoang Minh Hien, Ha Quang Thuy
Faculty of Information Technology, College of Technology – VNU HN
vutranmai@gmail.com, phamthuuyen@gmail.com, nutituti@gmail.com,
thuyhq@vnu.edu.vn

 


Abstract
    Multi-document summarization has been received special concern at Document Understanding Conferences (DUC) from 2001 to 2007. Some resolutions for document summarization have many applications, such as: summarize the content of cluster which is the result based on people's questions. Based on some results about sentence similarity (Yuhua Li et al. [8], P. Senellart and V. D. Blondel [14], Francisco J. Ribadas and other authors [6], Krishna Sapkota et al. [9]); document summarization based on semantic sentences (L. Vanderwende et al. [10]) and associated with analyzing hidden topic (David M. Blei et al. [17]), this paper suggests a model for Vietnamese multi-document summarization and a method to estimate cluster in VNSEN search engine.

 


    Key words: sentence similarity, multi-document summarization, hidden topic, cluster, VNSEN.