MÔ HÌNH BIỂU DIỄN VĂN BẢN THÀNH ĐỒ THỊ

MÔ HÌNH BIỂU DIỄN VĂN BẢN THÀNH ĐỒ THỊ

 

Nguyễn Hoàng Tú Anh, Nguyễn Thị Kim Chi, Nguyễn Hồng Phi

                  Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên

 

Tóm tắt

 

            Biểu diễn văn bản là một bước tiền xử lý rất quan trọng trong nhiều lĩnh vực như khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên…Bài báo này trình bày tổng quan mô hình biểu diễn văn bản thành đồ thị. Mô hình đồ thị có thể giữ lại các thông tin cấu trúc như vị trí, thứ tự xuất hiện và sự gần nhau của từ, trong khi chúng bị loại bỏ trong mô hình không gian vectơ truyền thống. Chúng tôi xây dựng thử nghiệm hệ thống phân loại văn bản tiếng Việt dựa trên mô hình biểu diễn văn bản thành đồ thị

 

 

 

 

 

 

 

 

 

 

 

 

 

GRAPH – BASED MODEL FOR TEXT REPRESENTATION

 

Nguyen Hoang Tu Anh, Nguyen Thi Kim Chi, Nguyen Hong Phi

                  Faculty of Information technology, University of Natural Sciences

 

Abstract

 

            Text representation models are very important pre-processing step in various domains such as text mining, information retrieval, NLP…In this paper we summarize graph-based text representation models. Graph-based model can capture structural information such as the location, order and proximity of term occurrence, which is discarded under the standard text vector representation models. We have tested this graph model in Vietnamese text classification system.