Cấu trúc dữ liệu đa cấp Multilevel data structurePhương pháp hồi quy OLS, OLS với tùy chọn robust hoặc cluster robust, OLS với các biến dummy, các phương pháp ước lượng dữ liệu bảng Fixed effects hay Random effects, GMM, kể cả phương pháp ước lượng dữ liệu bảng với độ dốc thay đổi là những phương pháp quan trọng và phổ biến trong bất kì nghiên cứu định lượng nào. Quan trọng hơn cả, đây là những phương pháp đặc trưng để ước lượng các mô hình dữ liệu đa bậc (Multilevel Modeling). Loạt bài viết sau sẽ trình bày rõ ràngcó hệ thống, theo trình tự khắc phục các vấn đề tồn tại của các phương pháp trên theo cách viết đơn giản, dễ hiểu. Thông qua chuỗi bài viết này các bạn chắc chắn sẽ làm chủ được các mô hình dữ liệu đa bậc, nhất là mô hình dữ liệu bảng. Show Ghi chú: chuỗi bài viết này là nhằm mục đích đơn giản hóa và liên kết các bài viết trước đó về dữ liệu bảng, cũng như mở ra các bài viết mới về SEM, GMM Bài viết đầu tiên là giới thiệu về dữ liệu đa cấp (Multilevel data). Vậy thế nào là một tập dữ liệu đa cấp? Vấn đề tồn tại của dữ liệu đa cấp là gì? 1. Giới thiệu về dữ liệu đa cấpDữ liệu đa cấp còn được gọi với các tên khác như là clustered data hoặc nested data. Trong nghiên cứu thực tế, chúng ta thường gặp các dữ liệu đa cấp với nhiều level khác nhau. Dữ liệu bảng (panel data) chỉ là 1 trường hợp của loại dữ liệu này. Ví dụ về dữ liệu đa cấp:
Có 4level ở ví dụ này:
Chúng ta quan tâm đến tác động của các biến tại các level khác nhau. Chẳng hạn như dự báo điểm số của mỗi học sinh:
Ngoài ra, các dữ liệu đa cấp còn là kết quả của các cuộc khảo sát lặp (repeated measurement) của các đối tượng theo thời gian. Dữ liệu bảng là một trường hợp của loại dữ liệu đa cấp này.
Hoặc ngược lại, level 1 là các đối tượng riêng rẻ và level 2 là các cột mốc thời gian khảo sát lặp. Tham khảo thêm vềMultilevel Data Structures tại e-Source 2. Vấn đề đặt ra đối với dữ liệu đa cấpGiả sử, chúng ta muốn tập trung đánh giá ở mức level cao, chẳng hạn đánh giá chất lượng học tập của từng trường chứ không phải mỗi học sinh riêng rẻ thì chúng ta có thể đánh giá thông qua giá trị thành tích học tập trung bình của mỗi học sinh. Theo cách tiếp cận này thì các dữ liệu cá nhân (individual) đã bị phá hủy hoặc ít nhất không được sử dụng (khai thác) hiệu quả. Từ đó làm giảm khả năng giải thích của dữ liệu. (Tabachnick & Fidel, 2007) Tại sao khả năng giải thích bị giảm?
Nhận xét: Kết quả hồi quy ở mức cá nhân thì đa phần các hệ số hồi quy và của mô hình đều có ý nghĩa thống kê, tuy nhiên, khi hồi quy ở cấp quốc gia (27 quốc gia) thì rất nhiều hệ số và cả mô hình không có ý nghĩa thống kê. Như vậy, việc gộp dữ liệu (data aggregation) sẽ hạn chế khả năng suy diễn thống kê ở mức thấp hơn 1 level. Ví dụ: tỉ lệ di cư giữa các tiểu bang ở Mỹ là có tương quan dương với trình độ học vấn trung bình của tiểu bang. Vậy có phải những người di cư có học vấn cao hơn so với các công dân bản địa? Câu trả lời là KHÔNG. Chúng ta không thể giả định sự tương quan ở mức cá nhân. Trong thực tế sự tương quan ở mức cá nhân này là âm, nhưng vì những người di cư ở những bang có mức học vấn cao đã tạo ra sự tương quan dương được đề cập ở trên. CÂU HỎI NGHIÊN CỨU Vậy mô hình nào sẽ được sử dụng để ước lượng dữ liệu đa cấp? hay phương pháp nào được sử dụng để ước lượng các mô hình dữ liệu đa cấp? Đọc tiếp: phương pháp tiếp cận dữ liệu đa cấp. |