CÁC PHƯƠNG PHÁP KHAI THÁC CÁ BIỆT DỰA TRÊN

CÁC PHƯƠNG PHÁP KHAI THÁC CÁ BIỆT DỰA TRÊN

KHOẢNG CÁCH CHO CÁC TẬP DỮ LIỆU LỚN

Nguyễn Hoàng Tú Anh, Cao Trọng Thắng

Trường Ðại học Khoa học Tự Nhiên - ÐHQG tp.HCM

Tóm tắt:

Hầu hết các ứng dụng khai thác dữ liệu tập trung vào bài toán khám phá các luật kết hợp hoặc mẫu phổ biến trong tập dữ liệu. Một công việc thường ít được chú ý nhưng khá quan trọng là xác định cá biệt hoặc ngoại lệ trong tập dữ liệu. Công việc này đặc biệt có ý nghĩa trong các ứng dụng phát hiện giả mạo như xác định thẻ tín dụng giả, xác định các xâm nhập mạng máy tính, làm sạch dữ liệu.. Bài báo này tập trung vào việc xác định các cá biệt dựa trên khoảng cách trong các tập dữ liệu lớn và đa chiều. Chúng tôi tập trung vào việc tổng hợp, phân tích 3 phương pháp chính: xác định cá biệt dựa trên các vòng lặp lồng, dựa trên cấu trúc chỉ mục và dựa trên cấu trúc ô . Cuối cùng chúng tôi trình bày kết quả thử nghiệm các phương pháp trên những tập dữ liệu khác nhau.

DISTANCE-BASED OUTLIERS MINING METHODS

FOR LARGE DATASETS

Nguyen Hoang Tu Anh, Cao Trong Thang

University of Natural Sciences - VNU.HCM

Abstract:

Most of the data mining applications focus on problem discovery the association rules or frequent patterns in data sets. One task rarely was interested but it is very important that is outliers or exceptions identification in data sets. Specially, its very meaningful in fraud detection applications such as credit card fraud , identifying computer network intrusions, data cleaning . In this paper, we focus on data outliers identification base on distance in large and multidimensional datasets. We focus on collection and analysis 3 basic methods include: nested loop-based, index-based and cell-based . Finally, we present experimental results of these methods on some data sets.