Tại sao chọn hồi quy topit

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

Show

Mơ hình với biến phụ thuộc bị giới hạn


(Models with Limited Dependent Variables)


Lê Việt Phú

Trường Chính sách Cơng và Quản lý Fulbright

</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

Các loại hình biến phụ thuộc bị giới hạn


I Đơn giản nhất là biến phụ thuộc là biến xác suất xảy ra một
sự kiện, có hoặc khơng xảy ra.

o Doanh nghiệp có bị phá sản hay khơng; có vay tiền ngân hàng
khơng.

I Biến phụ thuộc thể hiện hành vi lựa chọn trong mô hình đa
lựa chọn:

o Lựa chọn smartphone thương hiệu gì trong số các mặt hàng
bán trên thị trường: Apple, Samsung, LG, Xiaomi, Oppo...
I Biến phụ thuộc là biến xếp hạng/thứ tự:

o Xếp hạng một bộ phim từ: rất kém, kém, trung bình, hay, rất
hay.

I Biến phụ thuộc là số lần xảy ra một sự kiện:

o Số lần một người vi phạm hành vi bạo lựa gia đình, số lần đi
khám bệnh một năm.

I Biến phụ thuộc có giá trị bị chặn dưới hoặc chặn trên:


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

Tại sao kiểm soát vấn đề biến phụ thuộc bị giới hạn rất


quan trọng?


I Khơng thỏa các giả định của mơ hình hồi quy tuyến tính cổ
điển CLRM ⇒ Ước lượng có thể gặp một hoặc nhiều các vấn
đề sau:

o Phương sai của sai số thay đổi

o Ước lượng bị chệch

o Ước lượng không nhất quán

o Ước lượng không hiệu quả

I Để hiểu xảy ra vấn đề gì thì phải dựa vào hiểu biết của dữ liệu
và lý thuyết để giải thích.

I Lựa chọn khi phải đối phó với biến phụ thuộc bị giới hạn:

o Tiếp tục sử dụng OLS và chấp nhận các vấn đề có thể gặp
phải.

</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

Các mơ hình tương ứng với các loại biến phụ thuộc bị giới


hạn


I Mơ hình xác suất: LPM, Logit, Probit

I Mơ hình đa lựa chọn: Multinomial logit/probit, conditional

logit

I Mơ hình biến xếp hạng: Ordered logit/probit

I Mơ hình số lần xảy ra một sự kiện: Poisson count model

I Mơ hình biến phụ thuộc bị chặn:Tobit model for censored
data

</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

Khái niệm biến phụ thuộc bị chặn (censored data)


I Biến tiền lương bị chặn dưới bởi giá trị 0 đối với những người
chưa đi làm, về hưu, hay đang thất nghiệp. Các giá trị quan
sát được là dương.

I Rất nhiều biến số kinh tế bị chặn dưới bởi giá trị 0, ví dụ:

o Số giờ lao động của phụ nữ đã có gia đình.

o Số tiền làm từ thiện của một người trong một năm.

o Số lít rượu bia một người uống trong một năm.

o Chi tiêu cho hàng hoá xa xỉ của hộ gia đình trong dịp lễ tết.

o Thời gian thất nghiệp của một người lao động.

I Dữ liệu có thể bị chặn trên hoặc chặn dưới do cách thức điều
tra dữ liệu.


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

Hồi quy OLS của số giờ đi làm trong năm


I Biến phụ thuộc bị chặn dưới tại 0.

I Ước lượng bằng OLS với nhóm làm việc có thể bị thiên lệch
giảm (downward bias) do bỏ qua nhóm không làm việc.

</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

Các cách xử lý biến phụ thuộc bị chặn


I Cách 1: ước lượng mơ hình Logit/Probit với biến phụ thuộc là
có làm việc hay khơng. Tuy nhiên cách làm này chỉ ước lượng
được xác suất có làm việc hay khơng (biến định tính rời rạc),
nhưng khơng ước lượng được tác động của biến giải thích lên
số giờ làm việc của những người đi làm như thế nào (biến
định lượng liên tục).

</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

Mơ hình Tobit với biến phụ thuộc bị chặn


Bản chất của mô hình Tobit là hồi quy hai bước theo tuần tự:

I Bước 1: Ước lượng xác suất quan sát được một người có
tham gia lao động hay khơng bằng hồi quy xác suất MLE.

</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

Xây dựng mơ hình Tobit


Thơng thường hành vi làm việc của một người được diễn giải bởi
hàm ẩn:

y∗= X ∗ β + u, u ∼ N(0, σ2)


trong đó y∗ là biến phụ thuộc ẩn (latent variable), không quan sát
được. Chúng ta quan sát được biến y là số giờ làm việc trong năm:

y = max (0, y∗)

o Chúng ta quan sát được y > 0 đối với những người đi làm.

</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

Xây dựng mơ hình Tobit


Chúng ta có thể tìm được phương trình ước lượng của biến phụ
thuộc là trung bình có quyền số của xác xuất đi làm và số giờ đi
làm:

E [y |x ] = P(y = 0|x ) ∗ E [y = 0|x ]

| {z }

=0

+ P(y > 0|x ) ∗ E [y |y > 0, x ]

| {z }

>0

trong đó:

P(y > 0|x ) = P(X ∗ β + u > 0) = P(u
σ > −


X ∗ β
σ ) = Φ(

X ∗ β
σ )

</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

Xây dựng mơ hình Tobit


Ngồi ra, chúng ta có biểu thức sau (học viên tự chứng minh):

E [y |y > 0, x ] = X ∗ β + σλ(X ∗ β
σ )

</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

Xây dựng mơ hình Tobit


Từ các cơng thức trên, chúng ta có phương trình hàm hồi quy
Tobit như sau:

E [y |x ] = Φ(X ∗ β

σ ) ∗ X ∗ β + σφ(
X ∗ β

σ )
So sánh với hồi quy OLS:

E [y |x ] = X ∗ β

o Hồi quy Tobit là hàm phi tuyến của các tham số và biến giải
thích thơng qua hàm tích lũy và phân phối xác suất.


</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

Ước lượng mơ hình Tobit và diễn giải ý nghĩa


I Mơ hình Tobit được ước lượng bằng phương pháp MLE thay
vì OLS.

I Diễn giải sự khác biệt của các hệ số ước lượng:

o Với OLS thì β là tác động biên của các biến giải thích lên biến
phụ thuộc và không đổi.

∂E [y |x ]
∂xj

= βj

o Với Tobit thì chúng ta phải tính tác động biên từ phương trình
hàm hồi quy bằng đạo hàm bậc nhất của biến phụ thuộc theo
biến giải thích.

∂E [y |x ]
∂xj

=



Φ(X ∗β<sub>σ</sub> ) ∗ X ∗ β + σφ(X ∗β<sub>σ</sub> )



∂xj

</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

Tác động biên trong mơ hình Tobit


I Nếu biến giải thích là biến liên tục, chứng minh cơng thức sau
bằng quy tắc đạo hàm chuỗi:

∂E [y |x ]
∂xj

= Φ(X ∗ β
σ ) ∗ βj

I Nếu biến giải thích là biến rời rạc x0, x1:

∆y = E [y |x1] − E [y |x0]

I Tác động biên của mơ hình Tobit sẽ phụ thuộc vào giá trị
tham chiếu thông qua xác suất quan sát được một cá nhân có
tham gia lao động hay không Φ(X ∗β<sub>σ</sub> ).

I Tương tự như hồi quy Logit/Probit, Φ(X ∗β<sub>σ</sub> ) được tính tại các
giá trị đặc trưng như trung bình, các tứ phân vị... của các
biến giải thích.

</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

Ví dụ 1: Sử dụng bộ dữ liệu Labor.dta và ước lượng hàm


cung lao động của phụ nữ đã có gia đình


Giả sử chúng ta muốn ước lượng mơ hình hàm cung số giờ lao

động như sau:

hours =β0+ β1netincome + β2educ + β3exper + β4exper2+ β5age

+ β6KIDS 6 + β7KIDS 7 + u

</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16></div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

Ước tính tác động biên


I Tác động biên của việc học thêm một năm lên số giờ lao động
của phụ nữ, tại giá trị trung bình của các biến giải thích, là
80.65*.645 = 52 giờ. Ước lượng OLS là 28.76 giờ.

I Tác động biên lên số giờ lao động của phụ nữ chưa có con
nhỏ dưới 6 tuổi so với có một con dưới 6 tuổi, tại giá trị trung
bình của các biến giải thích khác, là 503.5 giờ.

</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

Tổng kết mơ hình Tobit


I Khi dữ liệu quan sát được bị chặn tại một ngưỡng giá trị nào
đó thì ước lượng OLS có thể bị chệch hoặc gặp phải vấn đề
dự báo khơng chính xác.

I Sử dụng mơ hình Tobit và phương pháp MLE có thể sửa được
lỗi của mơ hình OLS.

</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19>

Học viên cần phân biệt hai tình huống và hai cách thức xử lý khác
nhau đối với mỗi tình huống:

o Chỉ áp dụng hồi quy Tobit với dữ liệu bị chặn (có nghĩa là dữ
liệu tồn tại, nhưng do quá trình thu thập hay tạo dữ liệu

khiến dữ liệu thu thập được bị chặn tại một ngưỡng quan sát
nào đó).

o Khi dữ liệu gặp phải vấn đề tự lựa chọn mẫu (ví dụ khơng
quan sát được một số cá nhân có các thuộc tính nhất định)
thì cần sử dụng hàm hồi quy điều chỉnh mẫu (Heckman
sample selection model – phần sau) .

</div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

Mơ hình với dữ liệu khơng ngẫu nhiên


(Models with non-random sample/


</div>
<span class='text_page_counter'>(21)</span><div class='page_container' data-page=21>

Khái niệm dữ liệu không ngẫu nhiên/Vấn đề tự lựa chọn


mẫu


I Do cách thiết kế mẫu khiến dữ liệu bị mất hoặc thiếu một
cách hệ thống.

I Do dữ liệu bị thiếu một số thông tin nhất định.

</div>
<span class='text_page_counter'>(22)</span><div class='page_container' data-page=22>

Hiệu lực nội tại khi xảy ra vấn đề lựa chọn mẫu


Giả sử chúng ta có mơ hình hồi quy của thu nhập y theo các biến
giải thích x :

y = β0+ β1x1+ ... + βkxk + u

thỏa các điều kiện của mơ hình CLRM và E [u|x1, ..., xk] = 0
I Nếu chúng ta quan sát được toàn bộ mẫu dữ liệu ⇒ Ước

lượng OLS không chệch và nhất quán.


I Khi dữ liệu bị thiếu:

o Dữ liệu bị thiếu ngẫu nhiên?

</div>
<span class='text_page_counter'>(23)</span><div class='page_container' data-page=23>

I Thiếu ngẫu nhiên: Ước lượng OLS đảm bảo hiệu lực nội tại,
nhưng độ tin cậy của ước lượng sẽ bị giảm.

</div>
<span class='text_page_counter'>(24)</span><div class='page_container' data-page=24>

Dữ liệu không ngẫu nhiên do q trình chọn mẫu dựa trên


biến giải thích


Xảy ra trong q trình thiết kế hay điều tra mẫu, ví dụ chỉ điều tra
những người làm việc ở HCM, hay có bằng cấp cao nhất không
quá phổ thông trung học.

I Không ảnh hưởng đến hiệu lực nội tại, nhưng có thể ảnh
hưởng đến hiệu lực ngoại vi.

</div>
<span class='text_page_counter'>(25)</span><div class='page_container' data-page=25>

Dữ liệu khơng ngẫu nhiên do q trình chọn mẫu xảy ra


trên biến phụ thuộc


Xảy ra do không thể quan sát được hay quan sát không đủ dữ liệu.

I Ảnh hưởng đến hiệu lực nội tại.

</div>
<span class='text_page_counter'>(26)</span><div class='page_container' data-page=26>

Xử lý khi dữ liệu không ngẫu nhiên


Cần hiểu rõ bản chất của dữ liệu và nguồn gơc của vấn đề lựa
chọn mẫu thì mới có thể đề xuất cách thức xử lý phù hợp!


I Nếu giả định những người không đi làm nhận mức lương bằng
0 ⇒ Mơ hình Tobit với biến phụ thuộc bị chặn dưới.

</div>
<span class='text_page_counter'>(27)</span><div class='page_container' data-page=27>

Ví dụ vấn đề chọn mẫu khi ước lượng hàm tỷ suất thu


nhập của việc đi học


Chúng ta có thơng tin của những người đi làm cơng ăn lương và
có báo cáo thu nhập. Nhưng toàn bộ dữ liệu điều tra bao gồm cả
những người trong độ tuổi lao động nhưng không báo cáo thu
nhập do làm tư, kinh doanh tiểu thương.

I Nếu chỉ giới hạn ở mẫu dữ liệu những người đang đi làm và
có thu nhập dương ⇒ OLS có thể chệch và khơng nhất qn
bởi nó bỏ qua những nhóm đối tượng có thu nhập nhưng
khơng báo cáo.

I Nếu chúng ta đưa tồn bộ dữ liệu (gồm cả những người
khơng báo cáo thu nhập) vào mơ hình thu nhập ⇒ Xử lý thế
nào với những người không báo cáo thu nhập?

</div>
<span class='text_page_counter'>(28)</span><div class='page_container' data-page=28>

Xây dựng mơ hình điều chỉnh vấn đề lựa chọn mẫu


Mơ hình lựa chọn mẫu được viết dưới dạng hệ phương trình cấu
trúc, bao gồm một phương trình diễn giải hành vi và một phương
trình diễn giải vấn đề lựa chọn mẫu:

(

y = X β + u
s = 1[Z γ + v ≥ 0]


</div>
<span class='text_page_counter'>(29)</span><div class='page_container' data-page=29>

Ý nghĩa của phương trình lựa chọn mẫu s


Phương trình lựa chọn được biểu diễn dưới dạng hàm chỉ số
(index function) của các biến giải thích Z , mục đích để giải thích
tại sao một số quan sát nằm trong mẫu nghiên cứu (ví dụ có thu
nhập) cịn những người khác nằm ngồi mẫu (khơng có thu nhập).

s =





1 if Z γ + v ≥ 0

0 otherwise

I Nếu Z<sub>i</sub>γ + v ≥ 0 ⇒ si = 1, có nghĩa là chúng ta quan sát

được cá nhân i trong phương trình hành vi (cá nhân i có thu
nhập).

I Nếu si = 0 có nghĩa là chúng ta khơng có cá nhân i trong

</div>
<span class='text_page_counter'>(30)</span><div class='page_container' data-page=30>

Ý nghĩa của phương trình hành vi y


Với điều kiện quan sát được cá nhân có thu nhập thì phương
trình hành vi ước lượng tác động của các nhân tố X ảnh hưởng

như thế nào đến thu nhập y .

y = X β + u

</div>
<span class='text_page_counter'>(31)</span><div class='page_container' data-page=31>

Các bước xây dựng và ước lượng mơ hình hồi quy điều


chỉnh vấn đề lựa chọn mẫu


Bắt đầu bằng hệ phương trình cấu trúc:

(

y = X β + u
s = 1[Z γ + v ≥ 0]

Bỏ qua các bước biến đổi trung gian (học viên tự chứng minh),
chúng ta có cơng thức của phương trình hành vi y với điều kiện
quan sát được các cá nhân nằm trong mẫu là:

</div>
<span class='text_page_counter'>(32)</span><div class='page_container' data-page=32>

trong đó:

o λ(.) là tỷ số Mills nghịch đảo (Mills Inverse Ratio-IMR), được
tính tại giá trị Z γ.

λ(Z γ) = φ(Z γ)
Φ(Z γ)

φ(.) và Φ(.) là hàm mật độ và hàm tích lũy phân phối chuẩn.

o λ(Z γ) được coi như một biến giải thích phụ đưa vào để điều
chỉnh vấn đề chọn mẫu.


o X là các biến giải thích trong mơ hình cấu trúc.

o β và ρ là tham số cần ước lượng của phương trình hành vi có
điều kiện.

</div>
<span class='text_page_counter'>(33)</span><div class='page_container' data-page=33>

Tóm lại, chúng ta cần ước lượng phương trình hành vi có điều kiện
(conditional expectation function):

E [y |Z , s = 1] = X β + ρλ(Z γ)
với các đặc tính sau:

o Các tham số của mơ hình hành vi có điều kiện là β và ρ.

o Các biến giải thích là X và tỷ số λ(Z γ).

</div>
<span class='text_page_counter'>(34)</span><div class='page_container' data-page=34>

Heckman sample selection model


Bản chất của phương pháp điều chỉnh mẫu (các tên khác: hồi quy
khi xảy ra vấn đề lựa chọn mẫu, phương pháp Heckman sample
correction, phương pháp Heckit) là ước lượng phương trình hành vi
có điều kiện bằng hồi quy hai bước:

1. Ước lượng phương trình tự lựa chọn mẫu s để tính λ(Z γ).

</div>
<span class='text_page_counter'>(35)</span><div class='page_container' data-page=35>

Ước lượng hồi quy điều chỉnh mẫu bằng hồi quy hai giai


đoạn


1. Ước lượng mơ hình lựa chọn mẫu (cá nhân có thu nhập hay
khơng) bằng hồi quy Probit để ước lượng các tham số γ, và

sử dụng toàn bộ bộ dữ liệu của những người trong độ tuổi lao
động:

P(s = 1|Z ) = Φ(Z γ + v )

Tính giá trị \λ(Z γ) bằng cơng thức:

\

λ(Z γ) = φ(Z ˆγ)
Φ(Z ˆγ)

</div>
<span class='text_page_counter'>(36)</span><div class='page_container' data-page=36>

Ước lượng hồi quy điều chỉnh mẫu bằng hồi quy hai giai


đoạn


2. Ước lượng mơ hình hành vi có điều kiện bằng OLS, với dữ liệu
trong mẫu (chỉ những cá nhân có thu nhập chính thức), với
các biến giải thích X và \λ(Z γ) được tính ở bước 1:

</div>
<span class='text_page_counter'>(37)</span><div class='page_container' data-page=37>

Ước lượng hồi quy điều chỉnh mẫu bằng hồi quy hai giai


đoạn


o Bản chất của phương pháp Heckit là chúng ta đưa thêm một
biến giải thích là tỷ số IMR được tính từ phương trình chọn
mẫu vào hồi quy OLS của phương trình hành vi có điều kiện.

o X tác động lên biến phụ thuộc thu nhập trong phương trình
hành vi, trong khi Z tác động lên xác suất tham gia lao động
chính thức trong phương trình chọn mẫu.


</div>
<span class='text_page_counter'>(38)</span><div class='page_container' data-page=38>

Ví dụ 2: ước lượng tác động của thủy lợi đến năng suất lúa


và ngô bằng phương pháp hàm sản xuất


Sử dụng bộ dữ liệu irrigation.dta.

I Chúng ta quan sát được sản lượng lúa và ngơ trên từng mảnh
đất, các đặc tính đất đai thổ nhưỡng của các khoảnh ruộng,
biến nhân khẩu học... Biến chính sách là tình trạng tưới tiêu
(đất có được tưới tiêu bằng thủy lợi hay không).

I Mảnh đất được tưới tiêu được kỳ vọng có sản lượng cao hơn.
Chênh lệch sản lượng giữa các mảnh đất có và khơng có tưới
tiêu sẽ cho phép ước lượng giá trị của thủy lợi.

</div>
<span class='text_page_counter'>(39)</span><div class='page_container' data-page=39>

Giả sử hàm sản xuất dạng logarithm như sau:

log (Qi) = α0+ α1× DIRRIi +

X

j

INPUTji × αj +

X

k

LANDki × αk


+X

n

DEMOni × αn+ ui

trong đó:

I Q là tổng sản lượng trên một công đất (kg/1000m2) một
năm.

I DIRRI là biến mảnh ruộng có được tưới tiêu hay không.
I INPUT , LAND, DEMO là các biến nhân tố đầu vào, đặc tính

</div>
<span class='text_page_counter'>(40)</span><div class='page_container' data-page=40>

Nhận diện vấn đề lựa chọn mẫu trong bài tốn thủy lợi


I Chính sách nông nghiệp ở Việt Nam yêu cầu một số loại đất
chỉ được trồng lúa. Ngồi ra, việc trồng cây gì cũng phụ thuộc
vào các đặc tính đất đai thổ nhưỡng của từng khoảng ruộng.
Thường thì các mảnh đất tốt nhất được dành để trồng lúa,
cịn đất xấu hơn thì trồng màu hay câu lâu năm ⇒ Dữ liệu
quan sát được bị ảnh hưởng bởi vấn đề chọn mẫu.

</div>
<span class='text_page_counter'>(41)</span><div class='page_container' data-page=41>

Mơ hình 1: Ước lượng hàm sản xuất bằng OLS

log (Qi) = α0+ α1× DIRRIi +

X

j


INPUTji × αj +

X

k

LANDki × αk

+X

n

DEMOni × αn+ ui

Mơ hình 2: Hàm hồi quy có điều chỉnh vấn đề chọn mẫu
bằng phương pháp Heckit. Ví dụ với đất lúa:






log (Q<sub>i</sub>rice) = α0+ α1× DIRRIi + ... + ρλ(Ziγ) + ui

P(si = 1|Zi) = Φ(Ziγ + vi)

</div>
<span class='text_page_counter'>(42)</span><div class='page_container' data-page=42>

So sánh và kiểm định mơ hình lựa chọn mẫu



I So sánh kết quả giữa mơ hình OLS và Heckit: Đúng là có hiện
tượng ước lượng thiên lệch q với mơ hình lúa, và thiên lệch
giảm với mơ hình ngơ.

I Kiểm định có vấn đề tự lựa chọn mẫu: Ho : ρ = 0. Nếu bác

</div>

<!--links-->