CÁC PHƯƠNG PHÁP KHAI THÁC CÁ BIỆT DỰA TRÊN

CÁC PHƯƠNG PHÁP KHAI THÁC CÁ BIỆT DỰA TRÊN

KHOẢNG CÁCH CHO CÁC TẬP DỮ LIỆU LỚN

 

Nguyễn Hoàng Anh, Cao Trọng Thắng

Trường Ðại học Khoa học Tự Nhiên - ÐHQG tp.HCM

 

Tóm tắt:

 

Hầu hết các ứng dụng khai thác dữ liệu tập trung vào bài toán khám phá các luật kết hợp hoặc mẫu phổ biến trong tập dữ liệu. Một công việc thường ít được chú ý nhưng khá quan trọng xác định biệt hoặc ngoại lệ trong tập dữ liệu. Công việc này đặc biệt ý nghĩa trong các ứng dụng phát hiện giả mạo như xác định thẻ tín dụng giả, xác định các xâm nhập mạng máy tính, làm sạch dữ liệu.. Bài báo này tập trung vào việc xác định các biệt dựa trên khoảng cách trong các tập dữ liệu lớn đa chiều. Chúng tôi tập trung vào việc tổng hợp, phân tích 3 phương pháp chính: xác định biệt dựa trên các vòng lặp lồng, dựa trên cấu trúc chỉ mục dựa trên cấu trúc ô . Cuối cùng chúng tôi trình bày kết quả thử nghiệm các phương pháp trên những tập dữ liệu khác nhau.

 

 

DISTANCE-BASED OUTLIERS MINING METHODS

FOR LARGE DATASETS

 

Nguyen Hoang Tu Anh, Cao Trong Thang

University of Natural Sciences - VNU.HCM

 

Abstract:

 

Most of the data mining applications focus on problem discovery the association rules or frequent patterns in data sets. One task rarely was interested but it is very important that is outliers or exceptions identification in data sets. Specially, its very meaningful in fraud detection applications such as credit card fraud , identifying computer network intrusions, data cleaning . In this paper, we focus on data outliers identification base on distance in large and multidimensional datasets. We focus on collection and analysis 3 basic methods include: nested loop-based, index-based and cell-based . Finally, we present experimental results of these methods on some data sets.