HỆ THỐNG XÂY DƯNG KHO NGỮ
LIỆU SONG SONG TỰ ĐỘNG TỪ INTERNET Đặng Bác Văn,
Hồ Bảo Quốc Khoa Công
nghệ thông tin, Trường Đại học Khoa
học Tự Nhiên
Tóm tắt Ngữ liệu song song có vai trò rất quan trọng đối với xử lý đa ngữ trong ngôn ngữ tự nhiên và hiện có rất nhiều văn bản song ngữ trên internet, có thể giúp ích cho việc xây dựng kho ngữ lieu song song. Trong bài viết này, nhóm tác giả chúng tôi đề nghị một phương pháp đơn giản và hiệu quả để xây dựng một kho ngữ liệu song song Anh-Việt từ dữ liệu thu thập qua internet. Hệ thống xây dựng có thể tải các trang web từ một địa chỉ cho trước, và xác định các cặp trang nào là dịch của nhau một cách tự động để xây dựng kho ngữ liệu song song Anh-Việt gióng ở mức đoạn. Hệ thống có thể áp dụng dễ dàng cho các cặp ngôn ngữ khác. Phương pháp đề nghị đã được thử nghiệm và cho kết quả khả quan AUTOMATIC CONSTRUCTION OF ENGLISH-VIETNAMESE PARALLEL
CORPUS THROUGH WEB MINING Đang Bac Van, Ho Bao Quoc Information Technology Faculty – Abstract Parallel
corpus has become a very essential resource for multilingual natural language
processing and there are large scale of parallel texts available on the
internet these days. In this paper, we propose a simple but reliable method to
construct an English-Vietnamese parallel corpus through web mining. Our system
can automatically download and detect parallel web pages on any given domains
to construct a parallel corpus that is well-aligned at sentence level with
completely clean texts. The proposed technique can be easily applied to other
language pairs. Experiments have been made and shown promising results. |