Pooled OLS model là gì

Home »EVIEWS , LUẬN VĂN , NGHIÊN CỨU KHOA HỌC , PHẦN MỀM , PHƯƠNG PHÁP ĐỊNH LƯỢNG » MÔ HÌNH DỮ LIỆU BẢNG : FEM, REMMụcđích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích mối quanhệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải thích (X11, X22, …, Xkk).Để làm điều này, chúng ta muốn biết sự tác động của Xi lên Y như thế nào, cảchiều hướng lẫn độ lớn của tác động. Trả lời câu hỏi này, chúng ta phải thuthập mẫu để có được kết quả ước lượng không chệch tác động của X lên Y. Để kếtquả ước lượng là không thiên chệch đòi hỏi chúng ta phải kiểm soát các biếnnhiễu, cả các biến quan sát được lẫn các biến không quan sát được. Đối với cácbiến nhiễu quan sát được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đabiến cổ điển (MCLR). Đối với các biến nhiễu không quan sát được, tuỳ vào đặcđiểm khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình hồiquy tác động cố định hay tác động ngẫu nhiên. Cả hai mô hình hồi quy này đòihỏi chúng ta phải sử dụng dữ liệu bảng.

Bạn đang xem: Mô hình pooled ols là gì

Bàiviết này tập trung trình bày nguyên tắc của các phương pháp ước lượng dữ liệubảng chứ không đi sâu vào các vấn đề về thủ tục kiểm định liên quan.

Pooled OLS model là gì

·Mô hình hồi tác động cố định(Fixed-effects) và tác động ngẫu nhiên (random-effects) được sử dụng trong phântích dữ liệu bảng (đôi khi còn được gọi là dữ liệu dài: longitudinal data). Dữliệu bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời gian(time series). Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng(units) giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta cóthể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố,quốc gia… trong giai đoạn từ năm 2000 đến 2014.·Sử dụng dữ liệu bảng có hai ưu điểmlớn như: i) Dữ liệu bảng cho các kết quả ước lượng các của tham số trong môhình tin cậy hơn; ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tácđộng mà những tác động này không thể được xác định và đo lường khi sử dụng sửdụng chéo hoặc dữ liệu thời gian.Xétmột mối quan hệ kinh tế, với biến phụ thuộc, Y, và hai biến giải thích quan sátđược, X11và X22, và một hoặc nhiều biến không quan sát được. Chúng ta có dữliệu bảng cho Y, X11, và X22.Dữ liệu bảng bao gồmN-đối tượng vàT-thời điểm, và vìvậy chúng ta có NxT quan sát. Mô hình hồi quy tuyến tính cổ điển không có hệ sốcắt được xác định bởi:trongđó Yititlà giá trị của Y cho đối tượngi ở thời điểm t; Xit1it1là giá trị của X11chođối tượng i ở thời điểm t, Xit2it2là giá trị của X22cho đối tượng i ở thời điểm t, và μititlà sai số của đối tượng i ởthời điểm t.Môhình hồi quy tác động cố định, là một dạng mở rộng của mô hình hồi quy tuyếntính cổ điển, được cho bởi:trongđó μitit= νii+ εitit. Sai số của mô hình hồi quy tuyến tính cổ điển được táchlàm hai thành phần. Thành phần νiiđạidiện cho các yếu tố không quan sát được khác nhau giữa các đối tượng nhưngkhông thay đổi theo thời gian. Thành phần εititđại diện cho những yếu tố không quan sát được khácnhau giữa các đối tượng và thay đổi theo thời gian.Đốivới mô hình xác định mức lương lao động, Yititlà mức lương của người lao động i tại thời điểm t; Xit1làtrình độ giáo dục của lao động i tại thời điểm t, Xit2it2là kinh nghiệm của người lao động i tại thời điểm t,và αiilà tác động của kỹ năng bẩm sinhlên mức lương của người lao động i, giả định rằng kỹ năng bẩm sinh là yếu tốkhông quan sát được duy nhất tác động lên mức lương (và không thay đổi theothời gian). Với cở mẫu là 1000 người lao động (N= 1.000) được khảosát trong thời gian 3 năm (T = 3). Vì vậy, ta có, NxT = 3,000 quan sát. Mô hìnhtác động cố định này sẽ có 1.002 hệ số hồi quy (1.000 hệ số αii, 1 hệ số của biến trình độ giáo dục và 1 hệ số của biếnkinh nghiệm) và có bậc tự do là 1998 (3.000 – 1.002 = 1.998).

Cóhai phương pháp ước lượng được sử dụng để ước lượng các tham số của mô hình tácđộng cố định. i) Ước lượng hồi quy biến giả tối thiểu LSDV với mỗi biến giả làđại diện cho mỗi đối tượng quan sát của mẫu. ii) Ước lượng tác động cố định (Fixedeffects estimator).

·Khi N lớn, việc sử dụng ước lượngLSDV sẽ rất cồng kềnh hoặc không khả thi. Chẳng hạn, giả sử chúng ta muốn ướclượng mô hình xác định lương. Chúng ta có mẫu N = 1000 người lao động. Để sửdụng ước lượng LSDV, chúng ta sẽ cần tạo ra 1000 biến giả và chạy hồi quy OLScho hơn 1000 biến. Trong trường hợp như vậy, ước lượng tác động cố định sẽthích hợp hơn.·Nguyên tắc của ước lương tác động cốđịnh được hiểu như sau. Để đánh giá tác động nhân quả của các biến độc lập X11và X22lênbiến phụ thuộc Y, ước lượng tác động cố định sử dụng sự thay đổi trong X11,X22, và Y theo thời gian. GọiZiikí hiệu cho một biến không quan sát được khác nhaugiữa các đối tượng nhưng không đổi theo thời gian và vì vậy bao gồm cả phần saisố trong đó. Bởi vì Ziikhông thay đổi theo thời giannênnó không thể gây ra bất kì sự thay đổi nào trongYitYit; Sở dĩ như vậy là vìkhông thay đổi theo thời gian, Ziikhông thể giải thích bất kì sự thay đổi nàotrongYitYittheo thời gian. Vì vậy, loạitrừ tác động cố định của ZiilênYitYitbằng cách sử dụng dữ liệu sự thay đổi trongYitYittheo thời gian.Chúngta không thể đưa thêm các biến như giới tính, sắc tộc như là biến giải thíchtrong mô hình tác động cố định để xác định mức lương, bởi vì những biến nàykhác nhau giữa những người lao động nhưng không thay đổi theo thời gian. Nếumẫu khảo sát của chúng ta chỉ bao gồm những người lao động đã kết thúc việchọc, thì trình độ học vấn sẽ khác nhau giữa những người lao động nhưng lạikhông thay đổi theo thời gian. Trong trường hợp này, chúng ta không thể sử dụngmô hình tác động cố định để ước lượng tác động của giáo dục lên mức lương.

Xem thêm: “ Bổ Sung Là Gì - Từ Nào Mới Viết Đúng Chính Tả Tiếng Việt

Xétmột mối quan hệ kinh tế bao gồm một biến phụ thuộc, Y, và hai biến giải thíchquan sát được, X11và X22. Chúng ta có dữ liệu bảng cho Y, X11, và X22. Dữ liệu bảng gồm có N đối tượng vàT thời điểm, và vì vậy chúng ta có NxT quan sát.Trongđó, sai số cổ điển được chia làm 2 thành phần. Thành phần νiiđại diện cho tất các các yếu tố không quan sát được màthay đổi giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần εitđạidiện cho tất cả các yếu tố không quan sát được mà thay đổi giữa các đối tượngvà thời gian. Giả sử rằng viiđượccho bởi:Trongđó, viilại được phân chia làm haithành phần: i) thành phần bất địnha00, ii) thành phần ngẫu nhiên ωii.Giảđịnh rằng, ωicho mỗi đối tượng được rút ra từ một phân phốixác suất độc lập với giá trị trung bình bằng 0 và phương sai không đổi, đó là,E(ωii) = 0 Var(ωii) =sω2Cov(ωi,ωs) = 0Nbiến ngẫu nhiên ωiđược gọi tác độngngẫu nhiên (random effects).Môhình tác động ngẫu nhiên có thể được viết lại:YitYit=α00Xit1Xit1+ β22Xit2Xit2+μititTrongđóμitit= ωii+ εitit. Một giả định quan trọng trong mô hình tác động ngẫu nhiênlà thành phần sai số μitkhông tương quan với bất kì biến giảithích nào trong mô hình.

Ướclượng OLS cho mô hình tác động ngẫu nhiên sẽ cho các tham số ước lượng khôngchệch nhưng lại không hiệu quả. Hơn nữa, các ước lượng của sai số chuẩn và dođó thống kê t sẽ không còn chính xác. Sở dĩ như vậy là vì ước lượng OLS bỏ quasự tự tương quan trong thành phần sai số μit. Để kết quả ước lượngkhông chệch và hiệu quả, chúng ta có thể sử dụng ước lượng GLS khả thi (FGLS)để khắc phục hiện tượng sai số nhiễu tự tương quan.Ước lượng FGLScònđược gọi là ước lượng tác động ngẫu nhiên (Random effects estimator).

Ngoàihai phương pháp tác động cố định và tác động ngẫu nhiên, trong một số trườnghợp nhà nghiên cứu vẫn sử dụng ước lượng OLS thô (Pooled OLS) cho dạngdữ liệu thu thập này.Ước lượng thô là ước lượng OLS trên tập dữ liệu thuđược của các đối tượng theo thời gian, do vậy nó xem tất cả các hệ số đều khôngthay đổi giữa các đối tượng khác nhau và không thay đổi theo thời gian (Gujarati,2004 trang 641).

Câuhỏi đặt ra là mô hình nào sẽ là mô hình phù hợp:Pooled OLS,FEhayRE.Sự phù hợp của ước lượng tác động ngẫu nhiên và tác động cố định được kiểmchứng trên cơ sở so sánh với ước lượng thô.

·Cụ thể, ước lượng tác động cố địnhđược kiểm chứng bằng kiểm định F với giả thuyết H0 cho rằng tất cả các hệ số viđều bằng 0 (nghĩa là không có sự khác biệt giữa các đối tượng hoặc các thờiđiểm khác nhau). Bác bỏ giả thuyết H0 với mức ý nghĩa cho trước (mức ý nghĩa 5%chẳng hạn) sẽ cho thấy ước lượng tác động cố định là phù hợp. Đối với ước lượngtác động ngẫu nhiên, phương pháp nhân tử Lagrange (LM) với kiểm địnhBreusch-Pagan được sử dụng để kiểm chứng tính phù hợp của ước lượng (Baltagi,2008 trang 319). Theo đó, giả thuyết H0 cho rằng sai số của ước lượng thô khôngbao gồm các sai lệch giữa các đối tượng var(vi) = 0 (hay phương sai giữa cácđối tượng hoặc các thời điểm là không đổi). Bác bỏ giả thuyết H0, cho thấy saisố trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với ướclượng tác động ngẫu nhiên.

Xem thêm: 95 Tuổi Con Gì, Tuổi Gì, Hợp Màu Gì, Hợp Tuổi Nào, Hướng Nào?

·Kiểm định Hausman sẽ được sử dụng đểlựa chọn phương pháp ước lượng phù hợp giữa hai phương pháp ước lượng tác độngcố định và tác động ngẫu nhiên (Baltagi, 2008 trang 320; Gujarati, 2004 trang652). Giả thuyết H0 cho rằng không có sự tương quan giữa sai số đặc trưng giữacác đối tượng (vi) với các biến giải thích Xit trong mô hình. Ước lượng RE làhợp lý theo giả thuyết H0 nhưng lại không phù hợp ở giả thuyết thay thế. Ướclượng FE là hợp lý cho cả giả thuyết H0 và giả thuyết thay thế. Tuy nhiên,trong trường hợp giả thuyết H0 bị bác bỏ thì ước lượng tác động cố định là phùhợp hơn so với ước lượng tác động ngẫu nhiên. Ngược lại, chưa có đủ bằng chứngđể bác bỏ H0 nghĩa là không bác bỏ được sự tương quan giữa sai số và các biếngiải thích thì ước lượng tác động cố định không còn phù hợp và ước lượng ngẫunhiên sẽ ưu tiên được sử dụng.

Sửdụng phần mềm STATA cho tập dữ liệumus08psidextract.dtavới dữ liệu bảngcân bằng 4165 quan sát gồm 7 giai đoạn thời gian (T=7) và 595 đối tượng ngườilao động (n=595). Kết quả ước lượng mức lương của người lao động (lwage)theo số năm kinh nghiệm (exp), số năm kinh nghiệm bình phương (exp2),số giờ làm việc trong tuần (wks) và số năm đi học của người laođộng (ed) theo 3 mô hình Pooled OLS, Fixed effect (FE) và Randomeffect (RE) được thể hiện như sau: