MÔ HÌNH BIỂU DIỄN VĂN BẢN THÀNH ĐỒ THỊ Nguyễn
Hoàng Tú Anh, Nguyễn Thị Kim Chi, Nguyễn Hồng Phi Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên Tóm tắt Biểu diễn văn bản là một bước tiền xử lý rất quan trọng trong nhiều lĩnh vực như khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên…Bài báo này trình bày tổng quan mô hình biểu diễn văn bản thành đồ thị. Mô hình đồ thị có thể giữ lại các thông tin cấu trúc như vị trí, thứ tự xuất hiện và sự gần nhau của từ, trong khi chúng bị loại bỏ trong mô hình không gian vectơ truyền thống. Chúng tôi xây dựng thử nghiệm hệ thống phân loại văn bản tiếng Việt dựa trên mô hình biểu diễn văn bản thành đồ thị GRAPH – BASED MODEL FOR TEXT REPRESENTATION Nguyen
Hoang Tu Anh, Nguyen Thi Kim Chi, Nguyen Hong Phi Faculty of Information technology,
Abstract Text representation models are very important pre-processing step in various domains such as text mining, information retrieval, NLP…In this paper we summarize graph-based text representation models. Graph-based model can capture structural information such as the location, order and proximity of term occurrence, which is discarded under the standard text vector representation models. We have tested this graph model in Vietnamese text classification system. |