RÚT TRÍCH ÁNH XẠ CHUYỂN ÐỔI TRẬT TỰ TỪ ANH-VIỆT

Mở cửa sổ mới

Không tô màu

RÚT TRÍCH ÁNH XẠ CHUYỂN ÐỔI TRẬT TỰ TỪ ANH-VIỆT

TỪ NGỮ LIỆU SONG NGỮ BẰNG THUẬT TOÁN

LIÊN KẾT TỐI ƯU

Ðinh Ðiền, Xuân Quang, Thùy Ngân

Trường Ðại học Khoa học Tự Nhiên - ÐHQG tp.HCM

Tóm tắt:

Ðối với hệ dịch dựa trên chuyển đổi sử dụng cách tiếp cận dựa trên ngữ liệu, giai đoạn rút trích ánh xạ chuyển đổi trật tự từ từ ngữ liệu song ngữ là rất quan trọng và là một bài toán khó. Các ánh xạ chuyển đổi thường có chất lượng không cao do sự hạn chế xuất phát từ sự không chính xác của việc liên kết các từ và ngữ trong cặp câu Anh-Việt.. Trong bài báo này chúng tôi mô tả một thuật toán sử dụng chiến lược mối liên kết tối ưu để cải thiện đáng kể chất lượng của việc rút trích các ánh xạ chuyển đổi trật tự từ từ ngữ liệu song ngữ Anh-Việt. Thuật toán liên kết tối ưu sử dụng các điểm neo trong liên kết để tạo nên tập hợp các ánh xạ chuyển đổi hoàn chỉnh cho cặp câu song ngữ Anh-Việt. Thuật toán liên kết tối ưu này được kết hợp với tính chất bảo toàn quan hệ khi dịch một câu tiếng Anh sang câu tiếng Việt nhằm xây dựng tối đa các mối liên kết có thể có trong cặp câu song ngữ. Với kho ngữ liệu lớn với hơn 500,000 cặp câu song ngữ Anh-Việt đã cho phép chúng tôi thực hiện quá trình học học rút trích ánh xạ chuyển đổi một cách hiệu quả. Sau khi toàn bộ các cặp câu trong ngữ liệu đã được rút trích các ánh xạ chuyển đổi, chúng tôi tiến hành thống kê các ánh xạ và xây dựng bộ chuyển đổi trật tự từ Anh-Việt từ bộ dữ liệu này. Kết quả thực tế đã cho thấy đây là một thuật toán hiệu quả trong việc rút ra các ánh xạ chuyển đổi và cho kết quả cao khi tiến hành chuyển đổi trên dữ liệu tiếng Anh có lĩnh vực xác định.

EXTRACT ENGLISH-VIETNAMESE WORD ORDER TRANSFER MAPPINGS FROM BILINGUAL CORPUS BY BEST-FIRST ALIGNMENT ALGORITHM

Dinh Dien, Xuan Quang, Thuy Ngan

University of Natural Sciences - VNU.HCM

Abstract:

For the translations systems which are based on transferring uses corpus-based approach, the stage of extracting word order transfer mappings from bilingual corpus is very important and it is also a difficult problem. The transfer mappings often have poor quality because of the limitation emitted from the inaccuracy of word or phrase alignments in English-Vietnamese sentence pairs. In this paper we present an algorithm that used best-first alignment strategy in order to improve the quality of acquiring transfer mappings significantly from English-Vietnamese bilingual corpus. The best-first alignment algorithm uses the anchors in word or phrase alignments to create the entire set of transfer mappings for English-Vietnamese sentence pairs. This algorithm is accompanied with the relation preserving property when translating an English sentence into Vietnamese one so that we can get as maximum as possible the alignments in bilingual sentence pair. Possessing a large corpus with over 500,000 English-Vietnamese sentence pairs allows us to carry out the progress of machine learning for extracting word order transfer efficiently. After extracting the transfer mapping for entire corpus, we compute the frequency for each mapping and set up the English-Vietnamese word order transfer component from this data set. The practical result proved that this is an efficient algorithm in extracting word order transfer mappings and giving high quality in transferring the English text having specific domain.