HỆ THỐNG XÂY DƯNG KHO NGỮ LIỆU

HỆ THỐNG XÂY DƯNG KHO NGỮ LIỆU

SONG SONG TỰ ĐỘNG TỪ INTERNET

 

Đặng Bác Văn, Hồ Bảo Quốc

Khoa Công nghệ  thông tin, Trường Đại học Khoa học Tự  Nhiên

 

Tóm tắt

 

            Ngữ liệu song song có vai trò rất quan trọng đối với xử lý đa ngữ trong ngôn ngữ tự nhiên và hiện có rất nhiều văn bản song ngữ trên internet, có thể giúp ích cho việc xây dựng kho ngữ lieu song song. Trong bài viết này, nhóm tác giả chúng tôi đề nghị một phương pháp đơn giản và hiệu quả để xây dựng một kho ngữ liệu song song Anh-Việt từ dữ liệu thu thập qua internet. Hệ thống xây dựng có thể tải các trang web từ một địa chỉ cho trước, và xác định các cặp trang nào là dịch của nhau một cách tự động để xây dựng kho ngữ liệu song song Anh-Việt gióng ở mức đoạn. Hệ thống có thể áp dụng dễ dàng cho các cặp ngôn ngữ khác. Phương pháp đề nghị đã được thử nghiệm và cho kết quả khả quan

 

 

 

 

 

 

 

 

 

 

AUTOMATIC CONSTRUCTION OF ENGLISH-VIETNAMESE PARALLEL CORPUS THROUGH WEB MINING

 

 

Đang Bac Van, Ho Bao Quoc

Information Technology Faculty – University of Natural Sciences

 

Abstract

 

            Parallel corpus has become a very essential resource for multilingual natural language processing and there are large scale of parallel texts available on the internet these days. In this paper, we propose a simple but reliable method to construct an English-Vietnamese parallel corpus through web mining. Our system can automatically download and detect parallel web pages on any given domains to construct a parallel corpus that is well-aligned at sentence level with completely clean texts. The proposed technique can be easily applied to other language pairs. Experiments have been made and shown promising results.