RÚT TRÍCH ÁNH XẠ CHUYỂN ÐỔI TRẬT TỰ TỪ ANH-VIỆT

RÚT TRÍCH ÁNH XẠ CHUYỂN ÐỔI TRẬT TỰ TỪ ANH-VIỆT

TỪ NGỮ LIỆU SONG NGỮ BẰNG THUẬT TOÁN

LIÊN KẾT TỐI ƯU

                                                                                    

Ðinh Ðiền, Xuân Quang, Thùy Ngân

Trường Ðại học Khoa học Tự Nhiên - ÐHQG tp.HCM

 

Tóm tắt:

 

          Ðối với hệ dịch dựa trên chuyển đổi sử dụng cách tiếp cận dựa trên ngữ liệu, giai đoạn rút trích ánh xạ chuyển đổi trật tự từ từ ngữ liệu song ngữ rất quan trọng một bài toán khó. Các ánh xạ chuyển đổi thường chất lượng không cao do sự hạn chế xuất phát từ sự không chính xác của việc liên kết các từ ngữ trong cặp câu Anh-Việt.. Trong bài báo này chúng tôi tả một thuật toán sử dụng chiến lược mối liên kết tối ưu để cải thiện đáng kể chất lượng của việc rút trích các ánh xạ chuyển đổi trật tự từ từ ngữ liệu song ngữ Anh-Việt. Thuật toán liên kết tối ưu sử dụng các điểm neo trong liên kết để tạo nên tập hợp các ánh xạ chuyển đổi hoàn chỉnh cho cặp câu song ngữ Anh-Việt. Thuật toán liên kết tối ưu này được kết hợp với tính chất bảo toàn quan hệ khi dịch một câu tiếng Anh sang câu tiếng Việt nhằm xây dựng tối đa các mối liên kết thể trong cặp câu song ngữ. Với kho ngữ liệu lớn với hơn 500,000 cặp câu song ngữ Anh-Việt đã cho phép chúng tôi thực hiện quá trình học học rút trích ánh xạ chuyển đổi một cách hiệu quả. Sau khi toàn bộ các cặp câu trong ngữ liệu đã được rút trích các ánh xạ chuyển đổi, chúng tôi tiến hành thống các ánh xạ xây dựng bộ chuyển đổi trật tự từ Anh-Việt từ bộ dữ liệu này. Kết quả thực tế đã cho thấy đây một thuật toán hiệu quả trong việc rút ra các ánh xạ chuyển đổi cho kết quả cao khi tiến hành chuyển đổi trên dữ liệu tiếng Anh lĩnh vực xác định.

 

 

EXTRACT ENGLISH-VIETNAMESE WORD ORDER TRANSFER MAPPINGS FROM BILINGUAL CORPUS BY BEST-FIRST ALIGNMENT ALGORITHM

 

Dinh Dien, Xuan Quang, Thuy Ngan

University of Natural Sciences - VNU.HCM

Abstract:

 

          For the translations systems which are based on transferring uses corpus-based approach, the stage of extracting word order transfer mappings from bilingual corpus is very important and it is also a difficult problem. The transfer mappings often have poor quality because of the limitation emitted from the inaccuracy of word or phrase alignments in English-Vietnamese sentence pairs. In this paper we present an algorithm that used best-first alignment strategy in order to improve the quality of acquiring transfer mappings significantly from English-Vietnamese bilingual corpus. The best-first alignment algorithm uses the anchors in word or phrase alignments to create the entire set of transfer mappings for English-Vietnamese sentence pairs. This algorithm is accompanied with the relation preserving property when translating an English sentence into Vietnamese one so that we can get as maximum as possible the alignments in bilingual sentence pair. Possessing a large corpus with over 500,000 English-Vietnamese sentence pairs allows us to carry out the progress of machine learning for extracting word order transfer efficiently. After extracting the transfer mapping for entire corpus, we compute the frequency for each mapping and set up the English-Vietnamese word order transfer component from this data set. The practical result proved that this is an efficient algorithm in extracting word order transfer mappings and giving high quality in transferring the English text having specific domain.