Dữ liệu ngoại lai (outlier) là gì và xử lý những dữ liệu này như nào trong phân tích?

0
54
Rate this post

Dữ liệu ngoại lai là những giá trị không tuân theo quy tắc chung và khác biệt so với các giá trị khác trong tập dữ liệu. Sự xuất hiện của dữ liệu ngoại lai có thể gây sai lệch trong kết quả phân tích và ảnh hưởng đến việc xây dựng các thuật toán dự đoán.

Để xử lý dữ liệu ngoại lai, chúng ta cần phát hiện và hiểu rõ về các giá trị này. Dưới đây là một số phương pháp mà chúng ta có thể sử dụng để xác định và xử lý dữ liệu ngoại lai.

Xác định trực tiếp trong bảng/trang tính của tập dữ liệu

Phương pháp đơn giản nhất để tìm dữ liệu ngoại lai là thông qua việc xem trực tiếp trong bảng/trang tính của tập dữ liệu. Có thể xảy ra tình huống giá trị ngoại lai là do sai sót trong quá trình nhập liệu.

Ví dụ, trong cột “Tuổi” của Antony Smith, có giá trị ngoại lai là 470 tuổi. Tuy nhiên, giá trị chính xác có thể là 47, 70 hoặc 40 tuổi. Bằng cách sắp xếp dữ liệu theo thứ tự và tìm ra các giá trị bất thường, ta có thể xác định dữ liệu ngoại lai.

Sử dụng biểu đồ

Trực quan hóa dữ liệu bằng biểu đồ có thể giúp chúng ta nhìn thấy rõ ràng các giá trị ngoại lai. Có ba loại biểu đồ thường được sử dụng: boxplot (biểu đồ hộp), histogram (biểu đồ cột) và scatterplots (biểu đồ phân tán).

Biểu đồ Histogram và heatmap thường cho thấy tần suất phân phối ngoại lai khác biệt so với các giá trị khác trong tập dữ liệu.

Ví dụ, ta có biểu đồ histogram dưới đây biểu thị phân phối của các giá trị “km/l”. Chúng ta có thể dễ dàng nhận ra một số giá trị cách biệt so với các giá trị khác.

Xác định giá trị ngoại lai với biểu đồ Histogram

Đối với Boxplot, các giá trị ngoại lai thường được xác định ở hai đầu của biểu đồ.

Xác định giá trị ngoại lai với biểu đồ Boxplot

Sử dụng các phương pháp thống kê

Các phương pháp thống kê có thể giúp chúng ta xác định và xử lý dữ liệu ngoại lai. Một số phương pháp thống kê phổ biến bao gồm tính giá trị trung bình (mean) và độ lệch chuẩn (standard deviation), sử dụng Z-Score và Interquartile Range.

Phương pháp giá trị trung bình và độ lệch chuẩn sẽ xác định mức độ bất thường của một giá trị dựa trên phân phối dữ liệu. Z-Score tính số độ lệch chuẩn trên hoặc dưới giá trị trung bình và Interquartile Range sử dụng các giá trị phần tư để xác định giới hạn của các giá trị ngoại lai.

Sử dụng Hypothesis Tests

Kiểm định giả thuyết có thể được sử dụng để xác định dữ liệu ngoại lai. Chúng ta có thể đặt giả thuyết về phân phối của dữ liệu và so sánh kết quả thực tế với giả thuyết để xác định dữ liệu ngoại lai.

Tuy nhiên, khi sử dụng các phương pháp này, chúng ta cần cân nhắc về số lượng dữ liệu ngoại lai và không áp dụng quá nhiều các giả thuyết để tránh các vấn đề như Masking và Swamping.

Tóm lại, việc xác định và xử lý dữ liệu ngoại lai là một phần quan trọng trong quá trình phân tích dữ liệu. Chúng ta cần áp dụng các phương pháp thích hợp để đảm bảo kết quả phân tích chính xác và đưa ra những quyết định kinh doanh hợp lý.

Tác giả: Dnulib