GÁN NHÃN RANH GIỚI NGỮ TRONG NGỮ LIỆU SONG NGỮ ANH –
VIỆT Nguyễn Thị Hồng Nhung Khoa Công nghệ thông tin,
Trường Đại học Khoa học Tóm tắt Việc gán nhãn ranh giới ngữ (chunker) cho tiếng Việt hiện đang gặp khó khăn do việc thiếu ngữ liệu huấn luyện (ngữ liệu mà đã được gán nhãn ranh giới ngữ chính xác). Việc xây dựng thủ công ngữ liệu huấn luyện vô cùng tốn kém thời gian và công sức. Vì vậy, trong bài báo này, chúng tôi sẽ trình bày cách xây dựng ngữ liệu huấn luyện đó bằng cách lợi dụng kết quả gán nhãn ranh giới ngữ trong tiếng Anh của ngữ liệu song ngữ Anh –Việt, rồi chiếu kết quả đó tự động từ câu tiếng Anh sang câu tiếng Việt tương ứng trong ngữ liệu song ngữ Anh –Việt dựa theo các mối liên kết từ có sẵn. Qui trình cụ thể như sau: (1) dùng bộ Stanford Parser để gán nhãn ranh giới ngữ cho câu tiếng Anh; (2) xây dựng ánh xạ gióng hàng từ (word alignment) cho song ngữ bằng công cụ GIZA++ trong mô hình dịch máy thống kê SMT; (3) chiếu kết quả nhãn ranh giới ngữ của tiếng Anh trong bước 1 sang câu tiếng Việt dựa trên kết quả ánh xạ của bước 2. Chúng tôi đã thử nghiệm chiếu gán nhãn ranh giới ngữ này cho khoảng 50.000 cặp câu Anh Việt trích từ trong khó ngữ liệu song ngữ Anh Việt EVC của nhóm VCL và bước đầu mang lại kết quả tốt (độ chính xác đạt khoảng 95%). CHUNKER
TAGGING FOR ENGLISH – VIETNAMESE BILINGUAL
CORPUS Nguyen Thi Hong Nhung Information Technology Faculty – Abstract Vietnamese
chunker tagging, now, has many difficuties because we don’t have enough
training corpus (corpus that are annotated chunker tags exactly). Constructing
training corpus by manual is very expensive. So, in this paper, we describe the
way of constructing that corpus by using chunker tags in English sentences in
English-Vietnamese bilingual corpus, then inducing automatically that result
from English ones to Vietnamese ones, based on available word alignment. The
process is followed: (1) using Stanford Parser to chunker tagging the English
sentences; (2) constructing word alignment for bilingual corpus by We have tested chunker tagging for about 50.000 pairs of English-Vietnamese sentences, getting from our English-Vietnamese bilingual corpus, and got an optimistic result (the correction is about 95%). |