Tương quan tự là gì? | Tương quan tự, còn được gọi là tự tương quan (Autocorrelation), là hiện tượng khi sai số (thường được ký hiệu là ut) tại thời điểm t (hay còn gọi là sai số) có liên quan đến sai số tại thời điểm (t-1) hoặc bất kỳ sai số nào trong quá khứ.
Ví dụ: Nếu hôm nay trời mưa, dữ liệu cho thấy khả năng cao ngày mai trời cũng sẽ mưa nhiều hơn hôm nay. Khi nói về đầu tư, một cổ phiếu có thể có tỷ suất sinh lợi dương tự tương quan mạnh, cho thấy nếu nó “tăng” hôm nay, thì khả năng cao nó sẽ tiếp tục tăng vào ngày mai.
Tất nhiên, tương quan tự có thể là một công cụ hữu ích cho các nhà giao dịch; đặc biệt là đối với các nhà phân tích kỹ thuật.
1. Tương quan tự là gì? | Định nghĩa và Nguyên nhân xuất hiện
Trong dữ liệu chuỗi thời gian, tương quan tự được gọi là Autocorrelation và trong dữ liệu bảng, tương quan tự được gọi là Serial Correlation. Công thức chung như sau:
Uit = β*Uit-1 + cit
(U là sai số tại t và t-1, Hệ số β khác 0 thì có tương quan tự và ngược lại)
(i = 0 khi là time-series)
Nguyên nhân của tương quan tự
Có khá nhiều nguyên nhân dẫn đến hiện tượng tương quan tự gồm:
- Nguyên nhân do quán tính: Đặc điểm nổi bật của hầu hết các chuỗi thời gian trong kinh tế là quán tính mang tính chu kỳ.
- Hiện tượng mạng nhện
- Các độ trễ: Trong phân tích chuỗi thời gian, chúng ta có thể gặp hiện tượng biến phụ thuộc ở thời kỳ t phụ thuộc vào chính biến đó ở thời kỳ t-1 và các biến khác.
- Xử lí số liệu: Trong phân tích thực nghiệm, số liệu thô thường được xử lý. Chẳng hạn trong hồi qui chuỗi thời gian gắn với các số liệu quý, các số liệu này thường được suy ra từ các số liệu tháng bằng cách cộng 3 quan sát rồi chia cho 3. Việc lấy trung bình này làm trơn các số liệu và làm giảm sự biến động trong số liệu tháng. Chính sự làm trơn này có thể dẫn đến sai số có hệ thống trong các sai số ngẫu nhiên và gây ra sự tương quan.
- Sai lệch do lập mô hình: Đây là nguyên nhân thuộc về việc lập mô hình.
Mở rộng khái niệm về tương quan tự
Bên cạnh khái niệm cơ bản ở trên, tương quan tự còn có nhiều khái niệm khác như:
- Tương quan tự được biểu diễn thành hàm tự tương quan tại đơn vị gốc và thường được sử dụng trong quy trình tự hồi quy và mô hình trung bình động (MA).
- Tương quan tự cũng có thể được gọi là tương quan trễ hoặc tương quan nối tiếp, vì nó đo lường mối quan hệ giữa giá trị hiện tại của một biến và các giá trị trong quá khứ của nó.
- Phân tích tương quan tự được sử dụng nhiều trong quang phổ tương quan huỳnh quang để cung cấp cái nhìn định lượng về sự khuếch tán ở cấp độ phân tử và các phản ứng hóa học.
- Tương quan tự là tín hiệu để xác định tín hiệu thời gian liên tục.
- Ma trận tương quan tự là ma trận Hermitian cho các vector ngẫu nhiên phức tạp và một ma trận đối xứng cho các vector ngẫu nhiên thực.
- Công thức kinh tế lượng của tương quan tự được xây dựng trên hệ số hiệp phương sai chéo.
Funfact: Lý do tại sao hiện tượng tương quan tự thường xảy ra với dữ liệu chuỗi thời gian là do dữ liệu chuỗi thời gian được sắp xếp theo thứ tự t = 1 -> N nên tạo điều kiện cho các sai số U đã nói trên có tương quan với nhau cả trong quá khứ và hiện tại.
Xem thêm: Hồi quy Ma trận tương quan trong Stata
Ý nghĩa của hiện tượng tương quan tự
- Tương quan tự, là một khái niệm thống kê, còn được gọi là tương quan nối tiếp. Nó thường được sử dụng với mô hình trung bình di chuyển tự động hồi phục (ARMA) và mô hình trung bình động tích hợp tự động hồi phục (ARIMA). Phân tích tương quan tự giúp tìm ra các mẫu chu kỳ lặp lại, có thể được sử dụng như một công cụ phân tích kỹ thuật trên thị trường tài chính.
- Tương quan tự biểu thị mức độ tương đồng giữa một chuỗi thời gian và phiên bản trễ của nó trong các khoảng thời gian liên tiếp.
- Tương quan tự đo lường mối quan hệ giữa giá trị hiện tại của một biến và các giá trị trong quá khứ của nó.
- Tương quan tự +1 thể hiện mối tương quan dương hoàn hảo, trong khi tương quan tự -1 thể hiện mối tương quan âm hoàn hảo.
- Các nhà phân tích kỹ thuật có thể sử dụng tương quan tự để đo lường mức độ ảnh hưởng của giá trị trong quá khứ đối với giá tương lai của chứng khoán.
2. Hậu quả của hiện tượng tương quan tự là gì?
- Các ước lượng mô hình OLS vẫn không chệch và nhất quán theo phân phối chuẩn dù có hiện tượng này xảy ra.
- Các ước lượng trên không còn hiệu quả nghĩa là chúng không còn là ước lượng tuyến tính không chệch tốt nhất nữa (còn gọi là BLUE).
- Các giá trị sai số chuẩn của mô hình OLS bị ước lượng thấp (underestimated), tức các giá trị t ước lượng bị thổi phồng cao hơn mức bình thường.
- Các kiểm định giả thuyết trở nên đáng nghi vì các sai số ước lượng không còn đáng tin cậy. Do đó, kiểm định t và F có thể sẽ không còn hiệu lực.
- Các trường hợp khác có thể dẫn đến mô hình bị hiện tượng hồi quy giả mạo (spurious regression).
3. Kiểm định tương quan tự và cách phát hiện tương quan tự bằng Stata
Mặc dù có nhiều kiểm định tương quan tự, nhưng ở đây chúng ta chỉ thảo luận một vài cách, cụ thể là phương pháp đồ thị (graphical method), kiểm định Durbin-Watson, và kiểm định Breusch-Godfrey.
3.1. Phương pháp vẽ đồ thị
Khi đánh giá kết quả hồi quy, một cách thực hành tốt là luôn luôn vẽ đồ thị phần dư từ mô hình.
Xem thêm: Cách vẽ đồ thị trong Stata
Dạng đồ thị phần dư và nhận dạng loại tương quan
- Tương quan tự dương:
- Tương quan tự âm:
- Không có tương quan tự:
3.2. Kiểm định tương quan tự bằng kiểm định Durbin-Watson với dữ liệu chuỗi thời gian
Giả thuyết H0:
- H0: Mô hình không xảy ra hiện tượng tương quan tự
- H1: Mô hình xảy ra hiện tượng tương quan tự
Cách 1: Kiểm định bằng phương pháp Durbin-Watson
Durbin-Watson luôn tạo ra dải số thử nghiệm từ 0 đến 4. Các giá trị gần 0 cho biết mức độ tương quan tự dương lớn hơn, các giá trị gần 4 cho biết mức độ tương quan tự âm lớn hơn, trong khi các giá trị gần giữa hơn cho thấy mức độ tương quan tự ít hơn.
Sử dụng lệnh: dwstat
Cách 2: Sử dụng Durbin’s alternative để hiện mức ý nghĩa cho cách 1
Bạn có biết: Kiểm định Durbin-Watson có thể được ánh xạ tuyến tính theo mối tương quan Pearson giữa các giá trị và độ trễ của chúng.
Sử dụng lệnh: estat durbinalt
Cách 3: Sử dụng kiểm định Breusch-Godfrey
Lưu ý: Tương quan tự của các bậc cao hơn và có thể áp dụng cho dù các mô hình hồi quy có bao gồm độ trễ của biến phụ thuộc hay không còn được gọi là thử nghiệm Breusch-Godfrey.
Lệnh: bgodfrey
Kết quả từ cách 2 và cách 1 đều cho p-value < 0.05 nên ta bác bỏ H0 và kết luận mô hình xảy ra hiện tượng tương quan tự.
3.3. Kiểm định tương quan tự bằng lệnh xtserial với dữ liệu bảng
Sử dụng bộ dữ liệu bảng và setup dữ liệu cho Stata hiểu bằng câu lệnh: xtset bank YEAR
Sau khi hồi quy mô hình dùng lệnh: xtserial [BPT] + [BĐL]
như hình dưới
Kết quả với bộ dữ liệu này thì p-value = 0.0849 > 0.05 nên chấp nhận H0 và kết luận mô hình không xảy ra hiện tượng tương quan tự.
4. Cách khắc phục hiện tượng tương quan tự trong Stata
Giống như trong trường hợp của phương sai thay đổi, bạn cần sử dụng ước đoán dựa trên cơ sở kinh nghiệm hoặc một loại chuyển hóa nào đó về mô hình hồi quy gốc để trong mô hình đã được chuyển hóa không còn gặp phải vấn đề tương quan chuỗi nữa. Có nhiều cách khắc phục như sau:
4.1. Chuyển hóa sai phân bậc 1
Với cách này, bạn sẽ đưa toàn bộ dữ liệu về dạng sai phân bậc 1, tức là lấy hiệu số giữa hai kỳ quan sát thứ t và t-1 cho mỗi biến trong mô hình.
May thay trong Stata bạn không cần làm phức tạp như vậy mà chỉ cần dùng lệnh D.
ở phía trước các biến như sau: reg D.Y D.X1 D.X2 D.X3
4.2. Chuyển hóa tổng hóa
Các giá trị ước lượng p của các tham số thu được vì thế được biết với tên gọi là các ước lượng bình phương bé nhất tổng quát khả thi (FGLS – Feasible Generalized Least Squares estimators).
Tham khảo ngay nếu chưa biết: Mô hình FGLS là gì?
Trong phần mềm Stata đối với dữ liệu bảng ta có lệnh sau để khắc phục hiện tượng tương quan tự: xtgls [BPT][BĐL],corr(ar1)
Với giả định ut theo cơ chế AR(1) là phù hợp, hồi quy et theo et-1, sử dụng et làm biến đại diện cho ut, một giả định có thể phù hợp trong các mẫu lớn, bởi vì trong các mẫu lớn 𝜌̂ là ước lượng nhất quán của giá trị ước lượng p.
4.3. Phương pháp Newey-West để điều chỉnh các số chuẩn của OLS
Nhưng nếu cỡ mẫu lớn, thì bạn có thể ước lượng hồi quy OLS theo cách thông thường, nhưng điều chỉnh các sai số chuẩn của các hệ số hồi quy, theo một phương pháp được đề xuất bời Newey và West. Các sai số chuẩn được điều chỉnh theo thủ tục của họ cũng được biết với tên gọi các sai số chuẩn HAC (heteroscedasticity and autocorrelation consistent). Nói chung, nếu có tương quan tự, các sai số theo phương pháp HAC được tìm thấy lớn hơn các sai số chuẩn theo phương pháp OLS thông thường.
Thực hiện bằng 1 trong 2 cách sau trong phần mềm Stata: reg Y X1 X2 X3, vce(robust)
hoặc newey Y X1 X2 X3 , lag(n)
Khi dùng lệnh newey phải thêm giá trị biến trễ thấp nhất là 1 để thay đổi bậc tương quan.
4.4. Thêm biến trễ vào biến phụ thuộc trong mô hình
Có thể thêm biến trễ cho biến phụ thuộc trong trường hợp biến này bị tương quan giữa hai giai đoạn t và t -1 với lệnh như sau:
reg Y L.Y X1 X2 X3
(Nếu chỉ muốn biến phụ thuộc với độ trễ 1)reg Y L(1/2).Y X1 X2 X3
(Nếu muốn biến phụ thuộc với độ trễ 1 và 2)
Sau khi thêm biến trễ vào biến phụ thuộc nhớ dùng kiểm định test lại nhé!
Xem thêm: Cách khắc phục và kiểm định tự tương quan trong các phần mềm khác như R, SPSS, EVIEW…
5. Video hướng dẫn chi tiết cách kiểm định tự tương quan trong STATA
Tự tương quan là gì và cách kiểm định trong STATA
6. Kết luận
Như vậy chúng ta đã tìm hiểu về hiện tượng tương quan tự là gì, nguyên nhân, hậu quả và cách phát hiện cũng như khắc phục trong phần mềm Stata.
Hy vọng với bài viết này các bạn sẽ nắm bắt rõ được tương quan tự là gì và áp dụng vào giải bài tập được giao!
MOSL xin chúc các bạn học tập và làm việc hiệu quả!
Xem thêm: Dịch vụ chạy Stata của Dnulib