GÁN NHÃN RANH GIỚI NGỮ

GÁN NHÃN RANH GIỚI NGỮ

TRONG NGỮ LIỆU SONG NGỮ ANH – VIỆT

Nguyễn Thị Hồng Nhung

Khoa Công nghệ thông tin, Trường Đại học Khoa học

Tóm tắt

Việc gán nhãn ranh giới ngữ (chunker) cho tiếng Việt hiện đang gặp khó khăn do việc thiếu ngữ liệu huấn luyện (ngữ liệu mà đã được gán nhãn ranh giới ngữ chính xác). Việc xây dựng thủ công ngữ liệu huấn luyện vô cùng tốn kém thời gian và công sức. Vì vậy, trong bài báo này, chúng tôi sẽ trình bày cách xây dựng ngữ liệu huấn luyện đó bằng cách lợi dụng kết quả gán nhãn ranh giới ngữ trong tiếng Anh của ngữ liệu song ngữ Anh –Việt, rồi chiếu kết quả đó tự động từ câu tiếng Anh sang câu tiếng Việt tương ứng trong ngữ liệu song ngữ Anh –Việt dựa theo các mối liên kết từ có sẵn. Qui trình cụ thể như sau: (1) dùng bộ Stanford Parser để gán nhãn ranh giới ngữ cho câu tiếng Anh; (2) xây dựng ánh xạ gióng hàng từ (word alignment) cho song ngữ bằng công cụ GIZA++ trong mô hình dịch máy thống kê SMT; (3) chiếu kết quả nhãn ranh giới ngữ của tiếng Anh trong bước 1 sang câu tiếng Việt dựa trên kết quả ánh xạ của bước 2.

Chúng tôi đã thử nghiệm chiếu gán nhãn ranh giới ngữ này cho khoảng 50.000 cặp câu Anh Việt trích từ trong khó ngữ liệu song ngữ Anh Việt EVC của nhóm VCL và bước đầu mang lại kết quả tốt (độ chính xác đạt khoảng 95%).

CHUNKER TAGGING FOR ENGLISH – VIETNAMESE

BILINGUAL CORPUS

Nguyen Thi Hong Nhung

Information Technology Faculty – University of Natural Sciences

Abstract

Vietnamese chunker tagging, now, has many difficuties because we don’t have enough training corpus (corpus that are annotated chunker tags exactly). Constructing training corpus by manual is very expensive. So, in this paper, we describe the way of constructing that corpus by using chunker tags in English sentences in English-Vietnamese bilingual corpus, then inducing automatically that result from English ones to Vietnamese ones, based on available word alignment. The process is followed: (1) using Stanford Parser to chunker tagging the English sentences; (2) constructing word alignment for bilingual corpus by GIZA++ tool in the Statistical Machine Translation model (SMT); (3) projecting automatically chunker tags from the English sentences in step 1 to Vietnamese sentences based on the word alignment results getting from step 2.

We have tested chunker tagging for about 50.000 pairs of English-Vietnamese sentences, getting from our English-Vietnamese bilingual corpus, and got an optimistic result (the correction is about 95%).