RÚT TRÍCH TỪ KHÓA TIẾNG VIỆT TỰ ĐỘNG

RÚT TRÍCH TỪ KHÓA TIẾNG VIỆT TỰ ĐỘNG

DỰA VÀO SỰ ĐỒNG HIỆN CỦA TỪ

Nguyễn Hoàng Tú Anh, Trần Việt Cường, Nguyễn Văn Tuấn

Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên

Tóm tắt

Trong bài báo này, chúng tôi trình bày một phương pháp rút trích từ khóa tự động trên tài liệu tiếng Việt mà không sử dụng bất kì một tập dữ liệu huấn luyện nào. Để đưa ra từ khóa cho một tài liệu, ta dựa vào thông tin thống kê đồng hiện của một thuật ngữ với tất cả các thuật ngữ phổ biến trong tài liệu đó. Từ khóa là một từ hoặc một cụm từ mô tả nội dung chính của một tài liệu. Rút trích từ khóa là một vấn đề quan trọng trong truy vấn tài liệu, gom nhóm tài liệu,….

AUTOMATIC VIETNAMESE KEYWORD EXTRACTION

BASED ON WORD CO-OCCURRENCES

Nguyen Hoang Tu Anh, Tran Viet Cuong, Nguyen Van Tuan

Faculty of Information Technology, University of Natural Science

Abstract

In this paper, we present an automatic keyword extraction algorithm that applies to a Vietnamese document without using any training corpus. To extract keyword, we rely on word co-occurrence statistical information of each term with frequent terms in the document. Keyword is a word or a sequence of words that provide a brief summary of a document’s contents. Keyword extraction is an important technique for document retrieval, document clustering, and so on.