mẹo hay

Các lỗi thường gặp khi chạy hồi quy tuyến tính năm 2024

Hồi quy tuyến tính đa biến có bốn giả định thông dụng. Bài này sẽ bàn về 4 giả định đó và cách khắc phục nếu ta vấp phải. Thông thường 1 bài làm luận văn thông thường thì cũng “mắt nhắm mắt mở” làm một số giả định thôi chứ nếu làm tất cả thì sẽ rất dài dòng.

Vấn đề cơ bản là trong quá trình tính toán các hệ số hồi quy và dự đoán biến phụ thuộc, các giả định của phân tích hồi quy có được đáp ứng hay không. Khi dự đoán không có biến nào tác động đến biến phụ thuộc có phải là kết quả của việc thực tế, hay là không có mối quan hệ giữa các biến hay do một số đặc điểm của dữ liệu không được mô hình hồi quy đáp ứng? Các giả định được kiểm tra nằm trong bốn lĩnh vực:

Liên hệ tuyến tính
Phương sai sai số không đổi
Phân phối chuẩn của phần dư[sai số]
Tính độc lập của sai số

Trước khi đi vào chi tiết từng giả định, ta cần hiểu rằng các giả định này áp vào hồi quy đa biến, cho cả từng biến riêng lẻ[ bao gồm biến độc lập, phụ thuộc] và cho mối quan hệ luôn. Một số giả định phải chạy hồi quy xong mới thấy được. Do đó các giả định này không chỉ test trước khi chạy hồi quy, mà còn ngay cả sau khi chạy hồi quy.

Phương thức dự đoán

Nguyên tắc cơ bản là dựa trên phần dư residual- đó là sự khác biệt giữa giá trị quan sát được và giá trị dự đoán bởi phương trình hồi quy. Khi xem xét residual này, vài dạng chuẩn hóa số liệu được xem xét để có thể so sánh các phần dư này với nhau.[ Vì nếu không chuẩn hóa, thông thường biến có giá trị dự đoán lớn thì có phần dư lớn]. Cách chuẩn hóa phổ biến là studentized residual, nó khác ở cách tích độ lệch chuẩn so với các cách khác.

Giả định 1: liên hệ tuyến tính

Tính tuyến tính của mối quan hệ giữa biến phụ thuộc và các biến độc lập thể hiện mức độ mà sự thay đổi của biến phụ thuộc gắn với biến độc lập. Hệ số hồi quy được giả định là không đổi trên phạm vi giá trị của biến độc lập. Khái niệm tương quan là thước đo sự liên kết cơ bản trong phân tích hồi quy, dựa trên mối quan hệ tuyến tính, do đó nó trở thành một vấn đề quan trọng trong việc biểu diễn mối quan hệ “thực” giữa các biến trong phân tích. Hơn nữa, các vi phạm của giả định về liên hệ tuyến tính không được khắc phục bằng cách tăng cỡ mẫu, như trường hợp của các giả định khác [ví dụ: tính chuẩn hóa normality]. Tính tuyến tính của bất kỳ mối quan hệ hai biến nào có thể dễ dàng kiểm tra thông qua các biểu đồ phần dư residual plots.

Hình trên cho thấy một mẫu phần dư điển hình chỉ ra sự tồn tại của mối quan hệ phi tuyến tính không được biểu diễn trong mô hình hiện tại. Bất kỳ mô hình đường cong nhất quán nào trong phần dư chỉ ra rằng hành động điều chỉnh sẽ làm tăng cả độ chính xác dự đoán của mô hình và tính hợp lệ của các hệ số ước lượng. Hành động khắc phục có thể có một trong các hình thức: -Chuyển đổi dạng số liệu, ví dụ lấy log, lấy căn bậc 2 của một hoặc nhiều biến độc lập để đạt được liên hệ tuyến tính -Sử dụng các phương pháp chuyên biệt như hồi quy phi tuyến được thiết kế đặc biệt để thích ứng với các hiệu ứng đường cong của các biến độc lập hoặc các mối quan hệ phi tuyến phức tạp hơn. -Bao gồm trực tiếp các mối quan hệ phi tuyến trong mô hình hồi quy, chẳng hạn như thông qua việc tạo ra hiệu ứng tương tác interaction terms trong việc xử lý biến điều tiết. Vậy biểu đồ như thế nào là tốt, đó là biểu đồ null plot dạng như sau

Null plot là biểu đồ các phần dư residual phân bổ ngẫu nhiên so với giá trị dự đoán của biến phụ thuộc

Vậy các nào để xác định các biến độc lập nào đang có hiện tượng không liên hệ tuyến tính.

Làm cách nào để xác định [các] biến độc lập nào cần chọn cho hành động khắc phục? Trong hồi quy đa biến có nhiều hơn một biến độc lập, việc kiểm tra phần dư chỉ cho thấy tác động tổng hợp của tất cả các biến độc lập, nhưng chúng ta không thể kiểm tra bất kỳ biến độc lập nào một cách riêng biệt trong một biểu đồ residual plot. Để làm như vậy, chúng ta sử dụng biểu đồ hồi quy từng phần partial regression plots, biểu đồ này cho thấy mối quan hệ của một biến độc lập với biến phụ thuộc, kiểm soát tác động của tất cả các biến độc lập khác. Do đó, biểu đồ hồi quy một phần mô tả mối quan hệ duy nhất giữa các biến phụ thuộc và độc lập.

Trong SPSS ta thực hiện việc tạo partial regression plots như sau: Trong màn hình hồi quy tuyến tính, chọn Plots… sau đó ấn vào check box:produce all partial plots

Kết quả mỗi biến độc lập có 1 biểu đồ tương ứng như ví dụ sau:

Việc kiểm tra các quan sát xung quanh đường này được thực hiện chính xác như đã thảo luận, nghĩa là các điểm phân bổ lộn xộn dạng như null plot thì ổn, còn nếu theo một hình dạng cong nào đó thì có dấu hiệu phi tuyến tính, nhưng bây giờ mô hình đường cong chỉ ra mối quan hệ phi tuyến giữa một biến độc lập cụ thể và biến phụ thuộc. Phương pháp này hữu ích hơn khi có sự tham gia của một số biến độc lập, vì chúng ta có thể biết được biến độc lập cụ thể nào vi phạm giả định về liên hệ tuyến tính và chỉ áp dụng các biện pháp khắc phục cần thiết cho chúng.

Giả định 2: phương sai sai số không đổi

Sự hiện diện của các phương sai không bằng nhau [phương sai thay đổi] là một trong những sai phạm giả định phổ biến nhất. Trong những trường hợp này, các error terms [phần dư] không phải là hằng số trong phạm vi của biến độc lập. Việc thiếu phương sai không đổi này trong phần dư không làm sai lệch các hệ số ước lượng, nhưng nó gây ra ước lượng không chính xác về sai số chuẩn của các ước lượng [thường bị đánh giá thấp hơn bình thường]. Điều này có thể gây ra tỷ lệ lỗi Loại I tăng cao.

Cách phát hiện phương sai sai số thay đổi

Chẩn đoán được thực hiện với các biểu đồ residual plot hoặc các kiểm định thống kê đơn giản. Vẽ đồ thị phần dư [đã studentized] so với các giá trị phụ thuộc được dự đoán và so sánh chúng với đồ thị rỗng null plot cho thấy một mẫu nhất quán nếu phương sai không phải là hằng số[ nghĩa là phương sai thay đổi]. Có lẽ mô hình phổ biến nhất là hình tam giác theo một trong hai hướng, hoặc mẫu hình kim cương. Nhiều khi, một số vi phạm xảy ra đồng thời, chẳng hạn như phi tuyến tính và phương sai thay đổi

Các biện pháp khắc phục đối với một trong những vi phạm cũng thường khắc phục các vấn đề trong các lĩnh vực khác.

Mỗi chương trình thống kê có mục kiểm tra phương sai thay đổi. Ví dụ, IBM SPSS cung cấp bài kiểm tra Levene về tính đồng nhất của phương sai, đo lường sự bằng nhau của phương sai đối với một cặp biến đơn lẻ.

Biện pháp khắc phục phương sai thay đổi

Có ba biện pháp khắc phục:

Variable Transformation- Chuyển định dạng của biến

Biện pháp khắc phục trực tiếp nhất là chuyển đổi [các] biến vi phạm. Sau khi biến đổi, các biến sẽ thể hiện phương sai không đổi và có thể được sử dụng trực tiếp trong mô hình hồi quy. Tuy nhiên, nhược điểm của phương pháp này là quá trình biến đổi nhiều lần làm phức tạp việc giải thích biến được biến đổi.

Weighted Least Squares

Cách khắc phục thứ hai là sử dụng quy trình phân tích bình phương nhỏ nhất có trọng số. Thủ tục này

“Trọng số” mỗi quan sát dựa trên phương sai của nó và do đó giảm thiểu các biến động về phương sai của các phần dư đã thấy trong hiện tượng phương sai thay đổi. Tuy nhiên, việc sử dụng phương pháp này đòi hỏi một loạt các giả định liên quan đến việc phân phối của phần dư và là một quá trình ước tính phức tạp.

Heteroscedasticity-Consistent Standard Errors

Cách tiếp cận thứ ba đã trở nên phổ biến hơn trong những năm gần đây là việc sử dụng robust standard errors hoặc là heteroscedasticity-consistent standard errors [HCSE] Các ước tính của các sai số chuẩn được hiệu chỉnh cho bất kỳ phương sai thay đổi nào có thể có, do đó đây là cách đơn giản và trực tiếp hơn so với các phép biến đổi biến hoặc bình phương nhỏ nhất có trọng số ở trên.

Mặc dù về mặt kỹ thuật, giả định về phân phối chuẩn chỉ áp dụng cho các phần dư sai số, bất kỳ nỗ lực nào để khắc phục tính không phân phối chuẩn đều liên quan đến việc đánh giá tính không phân phối chuẩn của các biến độc lập hoặc phụ thuộc hoặc cả hai. Phương pháp chẩn đoán đơn giản nhất cho tập hợp các biến độc lập trong phương trình là biểu đồ phần dư histogram of residuals, với việc kiểm tra trực quan phân phối xấp xỉ với phân phối chuẩn [xem Hình 5.11g]. Mặc dù hấp dẫn vì tính đơn giản của nó, phương pháp này đặc biệt khó đối với các mẫu nhỏ hơn, nơi mà sự phân bố thường không chuẩn. Một phương pháp tốt hơn là sử dụng biểu đồ normal probability plots. Chúng khác với các biểu đồ phần dư histogram of residuals ở chỗ các phần dư chuẩn hóa được so sánh với phân phối chuẩn. Phân phối chuẩn tạo thành một đường chéo thẳng và phần dư được vẽ trên đồ thị được so sánh với đường chéo. Nếu một phân phối là chuẩn, đường phần dư theo sát đường chéo. Thủ tục tương tự có thể so sánh riêng rẽ các biến phụ thuộc hoặc độc lập với phân phối chuẩn . Phân tích hồi quy khi kích thước mẫu vượt quá 200 quan sát thường được coi là ổn đối với giả định này, nhưng các nhà nghiên cứu luôn được khuyến khích đánh giá mức độ chuẩn của các phần dư để xác định các vấn đề. Trong các mẫu nhỏ hơn, các biến có thể được chuyển đổi để đạt được tính phân phối chuẩn để khắc phục các vi phạm giả định.

Giả định 4: độc lập của sai số Independence Of The Error Terms

Chúng ta giả định trong hồi quy rằng mỗi giá trị dự đoán là độc lập, có nghĩa là giá trị dự đoán không liên quan đến bất kỳ dự đoán nào khác; nghĩa là, chúng không được nhóm hoặc sắp xếp theo trình tự bởi bất kỳ biến nào. Chúng ta có thể xác định tốt nhất sự xuất hiện như vậy bằng cách vẽ biểu đồ kết hợp phần dư và bất kỳ biến nào bị nghi ngờ . Nếu các phần dư là độc lập, biểu đồ này các điểm sẽ xuất hiện ngẫu nhiên và tương tự như biểu đồ null plot residual như hình sau:

Các vi phạm giả định này sẽ được xác định bằng biểu đồ khác null plot trên.

Hình sau hiển thị một đồ thị thể hiện mối liên hệ giữa phần dư và thời gian, một biến trình tự phổ biến.

Một mẫu thường gặp khác được thể hiện trong hình sau

Việc này xảy ra khi các điều kiện cơ bản của mô hình thay đổi nhưng không được đưa vào mô hình ghiên cứu. Ví dụ: doanh số bán áo tắm được đo lường hàng tháng trong 12 tháng, với hai mùa đông so với một mùa hè duy nhất, nhưng không có chỉ số theo mùa nào được ước tính. Đồ thị phần dư sẽ cho thấy phần dư âm cho các tháng mùa đông so với phần dư dương cho các tháng mùa hè.

Các loại biến nhóm hoặc biến tuần tự được chia thành hai lớp cơ bản: dữ liệu chuỗi thời gian time series và dữ liệu clustered. Dữ liệu chuỗi thời gian time series đại diện cho các quan sát trên cùng một đơn vị [ví dụ: người hoặc đối tượng] trong nhiều lần. Chúng ta giả định rằng các quan sát cho bất kỳ cá nhân / đối tượng nào đều có liên quan với nhau và do đó không độc lập. Chúng ta có thể áp dụng các phép biến đổi dữ liệu như first differencing trong phân tích chuỗi thời gian hoặc centering trong các phép đo lặp lại. Cả hai tình huống này có thể được giải quyết bằng phân tích panel, một phần mở rộng của hồi quy đa biến để phù hợp với cả dữ liệu cross-sectional và chuỗi thời gian time series / dữ liệu bảng panel data. Loại biến phân nhóm / sắp xếp thứ tự thứ hai được tìm thấy khi dữ liệu được phân phối theo thứ bậc [tức là có các nhóm quan sát tạo thành cấu trúc lồng nhau trong dữ liệu]. Ví dụ là trong một môi trường giáo dục, nơi các học sinh riêng lẻ có thể được nhóm lại theo lớp, sau đó là các lớp trong trường học, v.v. Các nhóm này đều có thể có mối quan hệ với nhau trong nhóm [ví dụ: tác động chung của giáo viên này so với giáo viên khác] và do đó vi phạm giả định tính độc lập của sai số. Một lớp mô hình được gọi là mô hình đa cấp multilevel hoặc mô hình phân cấp hierachical model đã được phát triển để giải quyết cụ thể vấn đề này và cung cấp giải pháp khắc phục sự phụ thuộc giữa các quan sát.

Tổng kết về 4 giả định hồi quy

Phân tích phần dư, cho dù với việc nhìn đồ thị hoặc các kiểm định thống kê, cung cấp một bộ công cụ phân tích đơn giản nhưng mạnh mẽ để kiểm tra tính phù hợp của mô hình hồi quy. Tuy nhiên trong đa số bài nghiên cứu những phân tích này không được thực hiện và các vi phạm của các giả định vẫn được giữ nguyên. Do đó, những người sử dụng kết quả không biết về những điểm không chính xác tiềm ẩn có thể có, từ các phép kiểm định không phù hợp về ý nghĩa thống kê của các hệ số [1 biến có ý nghĩa thống kê khi nó không thật sự có, hoặc ngược lại] đến các dự đoán sai lệch và không chính xác của hệ số phụ thuộc. Nên nếu được bạn nên áp dụng các phương pháp này cho từng bộ dữ liệu và mô hình hồi quy. Việc áp dụng các biện pháp khắc phục, đặc biệt là các phép biến đổi dữ liệu, sẽ làm tăng độ tin cậy vào các diễn giải và dự đoán từ hồi quy bội. Khi bạn không muốn biến đổi số liệu, thì các biện pháp thay thế [ví dụ, robust standard errors hoặc là heteroscedasticity-consistent standard errors HCSE] sẽ có sẵn cùng với các dạng mô hình thay thế [ví dụ: đa cấp hoặc mô hình bảng] khi các phép biến đổi dữ liệu không đáp ứng được.

Khi nào sử dụng mô hình hồi quy tuyến tính?

Hồi quy tuyến tính là một kỹ thuật thống kê được sử dụng từ lâu và áp dụng dễ dàng cho phần mềm và tính toán. Các doanh nghiệp sử dụng nó để chuyển đổi dữ liệu thô một cách đáng tin cậy và có thể dự đoán được thành nghiệp vụ thông minh và thông tin chuyên sâu hữu ích.

Thuật toán Linear Regression là gì?

Hồi quy tuyến tính là thuật toán tìm ra phương trình tuyến tính dựa trên tập dữ liệu quan hệ giữa X [dữ liệu đầu vào] và Y [dữ liệu đầu ra]. X là biến giải thích và Y là biến phụ thuộc.

Mô hình hồi quy dùng để làm gì?

Phương trình hồi quy tuyến tính là một công cụ thống kê được sử dụng để mô hình hóa mối quan hệ giữa hai biến số liên tục. Nó được sử dụng để tìm một đường thẳng [hàm tuyến tính] mô tả quan hệ tuyến tính giữa biến phụ thuộc [biến mục tiêu] và biến độc lập [biến dự báo].

Machine Learning regression là gì?

Kỹ thuật Hồi quy trong Học máy Hồi quy [regression] là một phần lớn của bài toán Machine Learning liên quan đến việc dự đoán một giá trị số bằng cách sử dụng các biến đã biết mà không cần phải tìm ra mối quan hệ giữa các biến đó.