Multi level index là gì

Cấu trúc dữ liệu đa cấp Multilevel data structure

Phương pháp hồi quy OLS, OLS với tùy chọn robust hoặc cluster robust, OLS với các biến dummy, các phương pháp ước lượng dữ liệu bảng Fixed effects hay Random effects, GMM, kể cả phương pháp ước lượng dữ liệu bảng với độ dốc thay đổi là những phương pháp quan trọng và phổ biến trong bất kì nghiên cứu định lượng nào. Quan trọng hơn cả, đây là những phương pháp đặc trưng để ước lượng các mô hình dữ liệu đa bậc (Multilevel Modeling). Loạt bài viết sau sẽ trình bày rõ ràngcó hệ thống, theo trình tự khắc phục các vấn đề tồn tại của các phương pháp trên theo cách viết đơn giản, dễ hiểu. Thông qua chuỗi bài viết này các bạn chắc chắn sẽ làm chủ được các mô hình dữ liệu đa bậc, nhất là mô hình dữ liệu bảng.

Nội dung chính Show

Cấu trúc dữ liệu đa cấp Multilevel data structure
1. Giới thiệu về dữ liệu đa cấp
2. Vấn đề đặt ra đối với dữ liệu đa cấp

Ghi chú: chuỗi bài viết này là nhằm mục đích đơn giản hóa và liên kết các bài viết trước đó về dữ liệu bảng, cũng như mở ra các bài viết mới về SEM, GMM

Bài viết đầu tiên là giới thiệu về dữ liệu đa cấp (Multilevel data). Vậy thế nào là một tập dữ liệu đa cấp? Vấn đề tồn tại của dữ liệu đa cấp là gì?

1. Giới thiệu về dữ liệu đa cấp

Dữ liệu đa cấp còn được gọi với các tên khác như là clustered data hoặc nested data.

Trong nghiên cứu thực tế, chúng ta thường gặp các dữ liệu đa cấp với nhiều level khác nhau. Dữ liệu bảng (panel data) chỉ là 1 trường hợp của loại dữ liệu này.

Ví dụ về dữ liệu đa cấp:

Các học sinh trong 1 lớp
Các lớp của 1 trường
Các trường trong 1 tỉnh/TP

Có 4level ở ví dụ này:

Level 1 là các học sinh riêng rẻ
Level 2 là các lớp
Level 3 là các trường.
Level 4 là các tỉnh/TP

Chúng ta quan tâm đến tác động của các biến tại các level khác nhau. Chẳng hạn như dự báo điểm số của mỗi học sinh:

Ở level 1 (individual), đó là điểm số (score), điều kiện kinh tế (SES), giới tính (gender), dân tộc (ethnic)
Ở level 2 (classroom), đó là các biến như chất lượng giáo viên, sĩ số lớp
Ở level 3 (school), đó là các biến như loại trường học (công/tư), cơ sở vật chất
Ở level 4 (province/country), đó là các chính sách giáo dục, ngân sách giáo dục, các quỹ khen thưởng, học bổng

Ngoài ra, các dữ liệu đa cấp còn là kết quả của các cuộc khảo sát lặp (repeated measurement) của các đối tượng theo thời gian. Dữ liệu bảng là một trường hợp của loại dữ liệu đa cấp này.

Level 1: các mốc thời gian T1, T2, T3,
Level 2: các đối tượng riêng rẻ

Hoặc ngược lại, level 1 là các đối tượng riêng rẻ và level 2 là các cột mốc thời gian khảo sát lặp.

Tham khảo thêm vềMultilevel Data Structures tại e-Source

2. Vấn đề đặt ra đối với dữ liệu đa cấp

Giả sử, chúng ta muốn tập trung đánh giá ở mức level cao, chẳng hạn đánh giá chất lượng học tập của từng trường chứ không phải mỗi học sinh riêng rẻ thì chúng ta có thể đánh giá thông qua giá trị thành tích học tập trung bình của mỗi học sinh. Theo cách tiếp cận này thì các dữ liệu cá nhân (individual) đã bị phá hủy hoặc ít nhất không được sử dụng (khai thác) hiệu quả. Từ đó làm giảm khả năng giải thích của dữ liệu. (Tabachnick & Fidel, 2007)

Tại sao khả năng giải thích bị giảm?

Thứ nhất, việc trung bình hóa các đối tượng sẽ làm san bằng ý nghĩa của dữ liệu. Nghĩa là, nó không xét đến sự chênh lệch về điểm số của mỗi học sinh.
Thứ hai, bậc tự do của mô hình giảm mạnh khi trung bình hóa các quan sát. Từ đó, làm giảm mức ý nghĩa của mô hình cũng như các hệ số ước lượng và có thể dẫn đến sai lầm loại II.

Nhận xét: Kết quả hồi quy ở mức cá nhân thì đa phần các hệ số hồi quy và của mô hình đều có ý nghĩa thống kê, tuy nhiên, khi hồi quy ở cấp quốc gia (27 quốc gia) thì rất nhiều hệ số và cả mô hình không có ý nghĩa thống kê.

Như vậy, việc gộp dữ liệu (data aggregation) sẽ hạn chế khả năng suy diễn thống kê ở mức thấp hơn 1 level.

Ví dụ: tỉ lệ di cư giữa các tiểu bang ở Mỹ là có tương quan dương với trình độ học vấn trung bình của tiểu bang. Vậy có phải những người di cư có học vấn cao hơn so với các công dân bản địa? Câu trả lời là KHÔNG. Chúng ta không thể giả định sự tương quan ở mức cá nhân. Trong thực tế sự tương quan ở mức cá nhân này là âm, nhưng vì những người di cư ở những bang có mức học vấn cao đã tạo ra sự tương quan dương được đề cập ở trên.

CÂU HỎI NGHIÊN CỨU

Vậy mô hình nào sẽ được sử dụng để ước lượng dữ liệu đa cấp? hay phương pháp nào được sử dụng để ước lượng các mô hình dữ liệu đa cấp?

Đọc tiếp: phương pháp tiếp cận dữ liệu đa cấp.