Trong lĩnh vực machine learning, không tồn tại một thuật toán nào phù hợp với mọi ứng dụng và tập dữ liệu. Mỗi thuật toán trong machine learning dựa trên một tập các tham số hoặc giả định nhất định về phân bố dữ liệu. Vì vậy, để tìm được thuật toán phù hợp cho tập dữ liệu của mình, chúng ta cần thử nghiệm nhiều thuật toán khác nhau và điều chỉnh các tham số của chúng để đạt được độ chính xác cao nhất.
Một phương pháp khác để tăng độ chính xác trên tập dữ liệu của bạn là kết hợp một số mô hình với nhau. Phương pháp này được gọi là ensemble learning. Ý tưởng của việc kết hợp các mô hình khác nhau xuất phát từ việc các mô hình có khả năng khác nhau và có thể thực hiện tốt các công việc khác nhau. Khi kết hợp các mô hình này một cách hợp lý, chúng sẽ tạo thành một mô hình kết hợp mạnh mẽ có khả năng cải thiện hiệu suất tổng thể so với việc chỉ sử dụng các mô hình đơn lẻ.
Các phương pháp Ensemble Learning được chia thành 3 loại sau đây: Bagging (đóng bao), Boosting (tăng cường) và Stacking (Xếp chồng).
Trong bài viết này, chúng ta sẽ tìm hiểu về 3 kỹ thuật ensemble learning trên và cách sử dụng thư viện caret và caretEnsemble trong R để triển khai chúng vào bài toán cụ thể.
Để đọc tiếp về bài viết này, vui lòng truy cập dnulib.edu.vn.