TÍCH HỢP TRI THỨC HÌNH THÁI TỪ

TÍCH HỢP TRI THỨC HÌNH THÁI TỪ

TRONG DỊCH MÁY ANH-VIỆT KIỂU THỐNG KÊ

 

Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền

Khoa Công nghệ  thông tin, Trường Đại học  Khoa học Tự  Nhiên

 

Tóm tắt:

           

            Cho đến nay, dịch máy Anh-Việt theo cách tiếp cận dựa trên luật (rule-based approach) đang gặp một số hạn chế chưa vượt qua được, khiến chất lượng chưa thể cao. Một trong những nguyên nhân đó chính là chưa có mô hình và bộ luật đủ hiệu quả để chuyển đổi từ vựng và cấu trúc giữa hai ngôn ngữ có nhiều khác biệt về loại hình này. Để khắc phục hạn chế này, gần đây, trên thế giới, người ta chuyển sang cách tiếp cận thống kê dựa trên ngữ liệu (SMT: Statistical Machine Translation). Theo cách tiếp cận này, qui luật chuyển ngữ giữa hai ngôn ngữ sẽ hoàn toàn được thống kê từ ngữ liệu song ngữ (parallel corpus). Cách tiếp cận này đã được áp dụng thành công cho các cặp ngôn ngữ biến hình (Anh, Pháp, Nga,..). Khi áp dụng cho dịch Anh-Việt, kết quả có hạn chế do đặc thù ngôn ngữ loại hình đơn lập của tiếng Việt. Trong bài báo này, chúng tôi muốn trình bày một cải tiến cho cách tiếp cận dịch máy thống kê này bằng tích hợp thêm tri thức hình thái học của từ tiếng Việt: đó là ranh giới từ tiếng Việt. Qua thực nghiệm, chúng tôi đã đạt được các điểm số NIST và BLEU tăng từ 2-3% so với phương pháp gốc SMT ban đầu.

 

 

 

 

 

THE INTEGRATION OF LEXICAL MORPHOLOGY KNOWLEDGE INTO THE ENGLISH-VIETNAMESE

STATISTICAL MACHINE TRANSLATION

 

Hoang Cong Duy Vu, Van Chi Nam, Dinh Dien

Information Technology Faculty – University of Natural Sciences

Abstract:

 

            So far, results of the corpus-based English-Vietnamese Machine Translation (MT)  are really limited because of some reasons. One of them is lack of effective models and rule-sets for transferring lexicons and structures  between these different language typologies. In order to overcome this limitation, the corpus-based statistical machine translation (SMT) is recently considered the most feasible approach. In this approach, linguistic transferring rules are statistically extracted from the parallel corpus. This approach has been  proved successfully in pairs of inflectional languages (e.g. English, French, Russian, etc.) but not in the English-Vietnamese MT due to the isolated typology of Vietnamese. In this paper, we present our method to improve the SMT by using the Vietnamese lexical morphology knowledge: Vietnamese word boundary. Our experiments shown the significant BLEU and NIST-score improvements from 2-3% in comparison with the original SMT.