RÚT TRÍCH TỪ KHÓA TIẾNG
VIỆT TỰ ĐỘNG DỰA VÀO SỰ ĐỒNG
HIỆN CỦA TỪ Nguyễn Hoàng Tú Anh,
Trần Việt Cường, Nguyễn Văn Tuấn Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên Tóm tắt Trong bài báo này, chúng tôi trình bày một phương pháp rút trích từ khóa tự động trên tài liệu tiếng Việt mà không sử dụng bất kì một tập dữ liệu huấn luyện nào. Để đưa ra từ khóa cho một tài liệu, ta dựa vào thông tin thống kê đồng hiện của một thuật ngữ với tất cả các thuật ngữ phổ biến trong tài liệu đó. Từ khóa là một từ hoặc một cụm từ mô tả nội dung chính của một tài liệu. Rút trích từ khóa là một vấn đề quan trọng trong truy vấn tài liệu, gom nhóm tài liệu,…. AUTOMATIC VIETNAMESE KEYWORD EXTRACTION BASED ON WORD CO-OCCURRENCES Nguyen Hoang Tu Anh, Tran Viet
Cuong, Nguyen Van Tuan Faculty of Information
Technology, Abstract In this paper, we present an automatic keyword extraction algorithm that applies to a Vietnamese document without using any training corpus. To extract keyword, we rely on word co-occurrence statistical information of each term with frequent terms in the document. Keyword is a word or a sequence of words that provide a brief summary of a document’s contents. Keyword extraction is an important technique for document retrieval, document clustering, and so on. |