GÁN NHÃN TỪ LOẠI CHO NGỮ LIỆU
SONG NGỮ ANH – VIỆT Nghiêm Quốc Minh, Ngô Quốc Hưng (1) Khoa Khoa học máy tính,
Đại học Công nghệ thông Tin (2) Khoa Công nghệ thông tin,
Đại học Khoa học Tự nhiên Tóm tắt Việc
gán nhãn từ loại (POS-Tagger) cho tiếng Việt hiện
đang gặp khó khăn do việc thiếu ngữ
liệu huấn luyện (ngữ liệu mà đã
được gán từ loại chính xác). Việc xây
dựng thủ công ngữ liệu huấn luyện vô cùng
tốn kém thời gian và công sức. Vì vậy, trong bài báo
này, chúng tôi sẽ trình bày cách xây dựng ngữ liệu
huấn luyện đó bằng cách lợi dụng kết
quả gán nhãn từ loại trong tiếng Anh của
ngữ liệu song ngữ Anh –Việt, rồi chiếu
kết quả đó tự động từ câu tiếng
Anh sang câu tiếng Việt. Trong
khuôn khổ bài báo này, chúng tôi nghiên cứu và xây dựng
bộ công cụ gán nhãn từ loại trên ngữ liệu
song ngữ Anh- Việt. Mặc dù trên tiếng Anh có
những bộ gán nhãn từ loại với độ chính
xác cao (SVMTool, Stanford POS tagger, fnTBL, …), nhưng trên tiếng
Việt vẫn chưa có công cụ nào thật sự
hiệu quả. Chúng tôi xây dựng bộ gán nhãn từ
loại cho song ngữ dựa trên sự tự khử
nhập nhằng lẫn nhau giữa 2 ngôn ngữ trong
ngữ liệu song ngữ, qui trình thực hiện như
sau: (1) dùng SVMTool để gán nhãn cho từng câu tiếng
Anh; (2) xây dựng ánh xạ gióng hàng từ (word alignment) cho
ngữ liệu song ngữ Anh- Việt bằng công cụ
GIZA++ của mô hình SMT để; (3) chiếu nhãn từ
loại từ câu tiếng Anh sang câu tiếng Việt theo
ánh xạ đó. Chúng tôi đã thử nghiệm trên ngữ
liệu EVC khoảng 50.000 câu song ngữ. Bước
đầu với kết quả khả quan (độ
chính xác ~97% trên tiếng Việt). IMPROVING THE PERFORMANCE OF VIETNAMESE POS TAGGER BY USING THE ENGLISH- VIETNAMESE PARALLEL CORPUS Abstract Part-of-Speech Tagging (POS Tagging) for Vietnamese have many difficulties because there has been not so much training corpus which data had annotated exactly. It is very expensive and takes us a lot of time to build manually annotated training data. So that, in this paper, we present a method which can enhance the accuracy when building an annotated training corpus by taking advantages of available English-Vietnamese bilingual corpus. We use available results of POS Tagger for English to annotate the English side of a word-aligned parallel corpus, then directly project the tag to Vietnamese. In this paper, we researched and built a POS tagging tool for English-Vietnamese bilingual corpus. Although there have been many POS taggers for English with high accuracy such as SVMTool, Stanford POS tagger, fnTBL,… the results the POS taggers for Vietnamese achieve are not really good. We build a POS tagger for bilingual based on disambiguating between 2 languages of bilingual corpus, steps will be implement as following: (1) Use SVMTool to annotate for each English sentence; (2) Build word alignment for the English-Vietnamese bilingual corpus by using GIZA++ tool which is based on SMT model in order to (3) Project English POS tag to Vietnamese side and combine with Vietnamese POS tag to increase the accuracy of the VCLPOSTagger. We have experimented on EVC corpus (about 50000 bilingual sentences) and achieved a satisfactory result (the accuracy of ~97% for Vietnamese). |