GÁN NHÃN TỪ LOẠI CHO NGỮ LIỆU SONG NGỮ ANH

GÁN NHÃN TỪ LOẠI CHO NGỮ LIỆU SONG NGỮ ANH – VIỆT

GÁN NHÃN TỪ LOẠI CHO NGỮ LIỆU SONG NGỮ ANH – VIỆT

Nghiêm Quốc Minh, Ngô Quốc Hưng

(1) Khoa Khoa học máy tính, Đại học Công nghệ thông Tin

(2) Khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên

Tóm tắt

Việc gán nhãn từ loại (POS-Tagger) cho tiếng Việt hiện đang gặp khó khăn do việc thiếu ngữ liệu huấn luyện (ngữ liệu mà đã được gán từ loại chính xác). Việc xây dựng thủ công ngữ liệu huấn luyện vô cùng tốn kém thời gian và công sức. Vì vậy, trong bài báo này, chúng tôi sẽ trình bày cách xây dựng ngữ liệu huấn luyện đó bằng cách lợi dụng kết quả gán nhãn từ loại trong tiếng Anh của ngữ liệu song ngữ Anh –Việt, rồi chiếu kết quả đó tự động từ câu tiếng Anh sang câu tiếng Việt.

Trong khuôn khổ bài báo này, chúng tôi nghiên cứu và xây dựng bộ công cụ gán nhãn từ loại trên ngữ liệu song ngữ Anh- Việt. Mặc dù trên tiếng Anh có những bộ gán nhãn từ loại với độ chính xác cao (SVMTool, Stanford POS tagger, fnTBL, …), nhưng trên tiếng Việt vẫn chưa có công cụ nào thật sự hiệu quả. Chúng tôi xây dựng bộ gán nhãn từ loại cho song ngữ dựa trên sự tự khử nhập nhằng lẫn nhau giữa 2 ngôn ngữ trong ngữ liệu song ngữ, qui trình thực hiện như sau: (1) dùng SVMTool để gán nhãn cho từng câu tiếng Anh; (2) xây dựng ánh xạ gióng hàng từ (word alignment) cho ngữ liệu song ngữ Anh- Việt bằng công cụ GIZA++ của mô hình SMT để; (3) chiếu nhãn từ loại từ câu tiếng Anh sang câu tiếng Việt theo ánh xạ đó. Chúng tôi đã thử nghiệm trên ngữ liệu EVC khoảng 50.000 câu song ngữ. Bước đầu với kết quả khả quan (độ chính xác ~97% trên tiếng Việt).

IMPROVING THE PERFORMANCE OF VIETNAMESE POS TAGGER

BY USING THE ENGLISH- VIETNAMESE PARALLEL CORPUS

Abstract

Part-of-Speech Tagging (POS Tagging) for Vietnamese have many difficulties because there has been not so much training corpus which data had annotated exactly. It is very expensive and takes us a lot of time to build manually annotated training data. So that, in this paper, we present a method which can enhance the accuracy when building an annotated training corpus by taking advantages of available English-Vietnamese bilingual corpus. We use available results of POS Tagger for English to annotate the English side of a word-aligned parallel corpus, then directly project the tag to Vietnamese.

In this paper, we researched and built a POS tagging tool for English-Vietnamese bilingual corpus. Although there have been many POS taggers for English with high accuracy such as SVMTool, Stanford POS tagger, fnTBL,… the results the POS taggers for Vietnamese achieve are not really good. We build a POS tagger for bilingual based on disambiguating between 2 languages of bilingual corpus, steps will be implement as following: (1) Use SVMTool to annotate for each English sentence; (2) Build word alignment for the English-Vietnamese bilingual corpus by using GIZA++ tool which is based on SMT model in order to (3) Project English POS tag to Vietnamese side and combine with Vietnamese POS tag to increase the accuracy of the VCLPOSTagger. We have experimented on EVC corpus (about 50000 bilingual sentences) and achieved a satisfactory result (the accuracy of ~97% for Vietnamese).