Giá trị trống missing values1. Vì sao lại có giá trị trống?Giá trị trống (missing) có thể là ngẫu nhiên hoặc không ngẫu nhiên. Show
2. Vì sao lại quan tâm đến giá trị trống?
3. Xác định giá trị trống như thế nào?
Sử dụng file lọc quan sát và thực hiện 3 bước trên, kết quả Frequencies xuất hiện như sau:
Ví dụ, ở hình trên quan sát ở dòng Missing tương ứng ở hai cột deviceowned và color bạn sẽ thấy giá trị trống của hai biến này lần lượt là 6 và 1. Đây là số quan sát có giá trị trống ở hai biến này trong tập dữ liệu. Phân biệt giá trị trống ngẫu nhiên và không ngẫu nhiên như thế nào?
EM sẽ kiểm tra các quan sát có giá trị trống có khác so với các quan sát không có giá trị trống không. Nếu p nhỏ hơn 0.05 thì có sự khác nhau giữa hai nhóm và do đó, các giá trị trống này là không ngẫu nhiên và ngược lại nếu p lớn hơn 0.05 thì cho thấy các giá trị trống là ngẫu nhiên. Xử lý giá trị trống như thế nào?Không kể giá trị trống đó là ngẫu nhiên hay không ngẫu nhiên, có 3 cách xử lý khi gặp vấn đề dữ liệu trống như sau: Cách 1: không làm gì cả. Giữ nguyên dữ liệu như cũ với các giá trị trống của nó.Đây là cách thường được sử dụng nhất bởi các lí do sau.
a. Listwise deletion SPSS sẽ không bao gồm các quan sát của biến có giá trị trống trong các phân tích. Nếu bạn chỉ phân tích trên một biến thì Listwise deletion đơn giản chỉ là phân tích trên dữ liệu hiện có. Nếu bạn thực hiện phân tích trên nhiều biến thì Listwise deletion sẽ loại bỏ những quan sát có giá trị trống của tất cả các biến. Điểm bất lợi ở đây là làm mất đáng kể dữ liệu bởi vì chúng ta đã loại bỏ tất cả những quan sát của tất cả các biến có chứa giá trị trống (mặc dù ở những quan sát này, các biến không chứa giá trị trống nhưng một biến nào đó có chứa giá trị trống thì tất cả đều bị loại bỏ). b. Pairwise deletion SPSS sẽ bao gồm tất cả các dữ liệu hiện có chỉ loại bỏ giá trị chứa giá trị trống. Không giống như Listwise deletion phải loại bỏ tất cả các quan sát của tất cả các biến có chứa giá trị trống, Pairwise deletion chỉ loại bỏ những giá trị trống cụ thể (không phải toàn bộ) trong các phân tích. Mặt khác, nó tính đến tất cả dữ liệu hiện có. Chẳng hạn, nếu bạn muốn thực hiện kiểm tra tương quan giữa các biến thì SPSS sẽ thực hiện sự tương quan từng cặp (bivariate correlation) giữa các điểm dữ liệu, và chỉ bỏ qua những giá trị trống nếu nó tồn tại ở một số biến. Trong trường hợp này, kết quả Pairwise deletion sẽ cho thấy các cở mẫu khác nhau cho mỗi sự tương quan. Pairwise deletion sẽ hữu ích khi kích thước mẫu nhỏ hoặc giá trị trống lớn. c. Để hiểu rõ hơn về vấn đề này, cách tốt nhất là lần lượt thực hiện cả hai trường hợp Listwise deletion và Pairwise deletion và so sánh kết quả của chúng.LƯU Ý: với mỗi loại kiểm định thực hiện, bạn phải chỉ cho SPSS biết là sử dụng Listwise deletion hay Pairwise deletion. Chẳng hạn, chúng ta sử dụng lệnh Explore. Nếu bạn phân tích nhiều hơn một biến bằng lệnh Explore, đảm bảo rằng bạn chọn Options và Exclude cases pairwise bởi vì tùy chọn mặc định là Listwise deletion. Phần lớn các kiểm định cho bạn bạn chọn Listwise deletion hay Pairwise deletion, nhưng GLM Multivariate chỉ cho phép bạn chọn Listwise deletion. Vì vậy, ghi nhớ luôn kiểm tra số quan sát trong mỗi kết quả phân tích. Cách 2 là xóa những quan sát có chứa giá trị trống. Ví dụ, đối với mỗi giá trị trống trong tập dữ liệu, bạn có thể xóa các quan sát ứng với các giá trị trống. Vì vậy, phần còn lại trong dữ liệu bạn là đầy đủ dữ liệu cho tất cả các quan sát. Điểm bất lợi của cách này là làm giảm kích thước mẫu dữ liệu của bạn. Nếu bạn có một tập dữ liệu lớn, thì đây không phải là một bất lợi lớn bởi vì bạn có đủ quan sát sau khi loại bỏ các quan sát có chứa giá trị trống. Một bất lợi khác của cách này đó là các quan sát có chứa giá trị trống có thể khác với các quan sát không chứa giá trị trống (chẳng hạn, giá trị trống không ngẫu nhiên), vì thế mẫu sau khi loại bỏ các quan sát chứa giá trị trống sẽ không còn đại diện tốt. Ở đây, chúng ta chỉ sử dụng cách này khi các đối tượng nghiên cứu cụ thể không trả lời trong toàn bộ thang đo hoặc bảng câu hỏi nghiên cứu. Cách 3 là thay thế các giá trị trống. Có nhiều tranh cãi về việc có nên thay thế giá trị trống hay không. Có một vài sự đồng thuận, tuy nhiên, trong một số trường hợp nên thay thế. Chẳng hạn, thông thường chúng ta thực hiện thay thế bằng giá trị trung bình (Mean substitution), thay thế bằng giá trị ước lượng (Regression substitution) hoặc sử dụng phương pháp thay thế lặp, MI
Cả thay thế bằng giá trị trung bình và thay thế bằng giá trị ước lượng có thể được thực hiện bằng cách sử dụng: Transform > Replace Missing Cases. Xem thêm: các phương pháp thay thế giá trị trống |