Missing trong SPSS là gì

Giá trị trống missing values

1. Vì sao lại có giá trị trống?

Giá trị trống (missing) có thể là ngẫu nhiên hoặc không ngẫu nhiên.

Nội dung chính Show

Giá trị trống missing values
1. Vì sao lại có giá trị trống?
2. Vì sao lại quan tâm đến giá trị trống?
3. Xác định giá trị trống như thế nào?
Phân biệt giá trị trống ngẫu nhiên và không ngẫu nhiên như thế nào?
Xử lý giá trị trống như thế nào?

Giá trị trống ngẫu nhiên bởi vì đối tượng không chú ý trả lời một số câu hỏi. Chẳng hạn, câu hỏi quá phức tạp, quá dài hoặc người trả lời quá mệt không chú ý vào câu hỏi. Giá trị trống ngẫu nhiên cũng có thể xảy ra trong quá trình nhập liệu.
Giá trị trống không ngẫu nhiên xuất hiện khi người được phỏng vấn có lí do không trả lời câu hỏi. Chẳng hạn, câu hỏi có thể trùng hoặc gây nhầm lẫn khi trả lời. Hoặc cũng có thể câu hỏi không đưa ra các lựa chọn trả lời như không ý kiến, không thích hợp và vì thế người được phỏng vấn sẽ không trả lời những câu hỏi này. Ngoài ra, người được phỏng vấn có thể từ chối trả lời những câu hỏi liên quan đến những vấn đề nhạy cảm như tiền sử phạm tội, tình dục

2. Vì sao lại quan tâm đến giá trị trống?

Giá trị trống làm giảm kích thước mẫu và mất dữ liệu.
Giá trị trống cũng có thể tạo ra sự chệch trong dữ liệu.
Nếu giá trị trống là không ngẫu nhiên thì kết quả sẽ không đo lường đúng mục đích nghiên cứu. Vì vậy, kết quả nghiên cứu của bạn sẽ không còn chính xác.

3. Xác định giá trị trống như thế nào?

Chọn Analyze > Descriptive Statistics > Frequencies
Di chuyển tất cả các biến vào cửa sổ Variable(s).
Bấm OK.

Sử dụng file lọc quan sát và thực hiện 3 bước trên, kết quả Frequencies xuất hiện như sau:

Bảng Statistics sẽ cho biết số các quan sát có giá trị trống của từng biến trong tập dữ liệu của bạn.

Ví dụ, ở hình trên quan sát ở dòng Missing tương ứng ở hai cột deviceowned và color bạn sẽ thấy giá trị trống của hai biến này lần lượt là 6 và 1. Đây là số quan sát có giá trị trống ở hai biến này trong tập dữ liệu.

Phân biệt giá trị trống ngẫu nhiên và không ngẫu nhiên như thế nào?

Thứ nhất, nếu chỉ có một ít các giá trị trống thì khả năng rất cao các giá trị này là các giá trị trống ngẫu nhiên. Chẳng hạn, giá trị trống của biến color ở ví dụ trên là 1 trên 80 quan sát, với tỉ lệ 1/80 này có thể được xem là ngẫu nhiên.
Thứ hai, thậm chí nếu có số giá trị trống này lớn hơn thì nó cũng không nhất thiết có ý nghĩa là không ngẫu nhiên. Bạn nên đánh lại bảng câu hỏi xem liệu thiết kế của nó có tối nghĩa hoặc câu hỏi có liên quan đến những vấn đề nhạy cảm không.
Thứ ba, do cách thiết kế câu hỏi dẫn đến một vài câu hỏi luôn có nhiều giá trị trống so với các câu hỏi khác. Đó là những câu hỏi dạng chọn những câu trả lời mà bạn thấy phù hợp, khi đó, sẽ có những tùy chọn được chọn ít hơn so với những tùy chọn còn lại.
Thứ tư, sử dụng add-on Missing Values Analysis của SPSS để đánh giá quan sát nào là giá trị trống ngẫu nhiên và không ngẫu nhiên. Thực hiện đánh giá này như sau:

Chọn Analyze > Missing Value Analysis
Chọn EM

EM sẽ kiểm tra các quan sát có giá trị trống có khác so với các quan sát không có giá trị trống không. Nếu p nhỏ hơn 0.05 thì có sự khác nhau giữa hai nhóm và do đó, các giá trị trống này là không ngẫu nhiên và ngược lại nếu p lớn hơn 0.05 thì cho thấy các giá trị trống là ngẫu nhiên.

Xử lý giá trị trống như thế nào?

Không kể giá trị trống đó là ngẫu nhiên hay không ngẫu nhiên, có 3 cách xử lý khi gặp vấn đề dữ liệu trống như sau:

Cách 1: không làm gì cả. Giữ nguyên dữ liệu như cũ với các giá trị trống của nó.

Đây là cách thường được sử dụng nhất bởi các lí do sau.

Thứ nhất, số lượng giá trị trống thông thường là ít.
Thứ hai, các giá trị trống thông thường là không ngẫu nhiên.
Thứ ba, thậm chí nếu có một vài giá trị trống ở một số quan sát riêng rẻ, thông thường bạn sẽ tạo một biến mới bằng cách các tổ hợp trung bình các quan sát (biến mới này sẽ không chứa giá trị trống bởi nó là trung bình của các dữ liệu hiện có). Tuy nhiên, nếu bạn chọn cách này, bạn cần hiểu cách SPSS thực hiện ra sao. SPSS sử dụng listwise deletion hoặc là pairwise deletion trong phần Missing Values Analysis.

a. Listwise deletion SPSS sẽ không bao gồm các quan sát của biến có giá trị trống trong các phân tích. Nếu bạn chỉ phân tích trên một biến thì Listwise deletion đơn giản chỉ là phân tích trên dữ liệu hiện có. Nếu bạn thực hiện phân tích trên nhiều biến thì Listwise deletion sẽ loại bỏ những quan sát có giá trị trống của tất cả các biến. Điểm bất lợi ở đây là làm mất đáng kể dữ liệu bởi vì chúng ta đã loại bỏ tất cả những quan sát của tất cả các biến có chứa giá trị trống (mặc dù ở những quan sát này, các biến không chứa giá trị trống nhưng một biến nào đó có chứa giá trị trống thì tất cả đều bị loại bỏ).

b. Pairwise deletion SPSS sẽ bao gồm tất cả các dữ liệu hiện có chỉ loại bỏ giá trị chứa giá trị trống. Không giống như Listwise deletion phải loại bỏ tất cả các quan sát của tất cả các biến có chứa giá trị trống, Pairwise deletion chỉ loại bỏ những giá trị trống cụ thể (không phải toàn bộ) trong các phân tích. Mặt khác, nó tính đến tất cả dữ liệu hiện có. Chẳng hạn, nếu bạn muốn thực hiện kiểm tra tương quan giữa các biến thì SPSS sẽ thực hiện sự tương quan từng cặp (bivariate correlation) giữa các điểm dữ liệu, và chỉ bỏ qua những giá trị trống nếu nó tồn tại ở một số biến. Trong trường hợp này, kết quả Pairwise deletion sẽ cho thấy các cở mẫu khác nhau cho mỗi sự tương quan. Pairwise deletion sẽ hữu ích khi kích thước mẫu nhỏ hoặc giá trị trống lớn.

c. Để hiểu rõ hơn về vấn đề này, cách tốt nhất là lần lượt thực hiện cả hai trường hợp Listwise deletion và Pairwise deletion và so sánh kết quả của chúng.LƯU Ý: với mỗi loại kiểm định thực hiện, bạn phải chỉ cho SPSS biết là sử dụng Listwise deletion hay Pairwise deletion. Chẳng hạn, chúng ta sử dụng lệnh Explore. Nếu bạn phân tích nhiều hơn một biến bằng lệnh Explore, đảm bảo rằng bạn chọn Options và Exclude cases pairwise bởi vì tùy chọn mặc định là Listwise deletion. Phần lớn các kiểm định cho bạn bạn chọn Listwise deletion hay Pairwise deletion, nhưng GLM Multivariate chỉ cho phép bạn chọn Listwise deletion. Vì vậy, ghi nhớ luôn kiểm tra số quan sát trong mỗi kết quả phân tích.

Cách 2 là xóa những quan sát có chứa giá trị trống.

Ví dụ, đối với mỗi giá trị trống trong tập dữ liệu, bạn có thể xóa các quan sát ứng với các giá trị trống. Vì vậy, phần còn lại trong dữ liệu bạn là đầy đủ dữ liệu cho tất cả các quan sát. Điểm bất lợi của cách này là làm giảm kích thước mẫu dữ liệu của bạn. Nếu bạn có một tập dữ liệu lớn, thì đây không phải là một bất lợi lớn bởi vì bạn có đủ quan sát sau khi loại bỏ các quan sát có chứa giá trị trống. Một bất lợi khác của cách này đó là các quan sát có chứa giá trị trống có thể khác với các quan sát không chứa giá trị trống (chẳng hạn, giá trị trống không ngẫu nhiên), vì thế mẫu sau khi loại bỏ các quan sát chứa giá trị trống sẽ không còn đại diện tốt. Ở đây, chúng ta chỉ sử dụng cách này khi các đối tượng nghiên cứu cụ thể không trả lời trong toàn bộ thang đo hoặc bảng câu hỏi nghiên cứu.

Cách 3 là thay thế các giá trị trống.

Có nhiều tranh cãi về việc có nên thay thế giá trị trống hay không. Có một vài sự đồng thuận, tuy nhiên, trong một số trường hợp nên thay thế. Chẳng hạn, thông thường chúng ta thực hiện thay thế bằng giá trị trung bình (Mean substitution), thay thế bằng giá trị ước lượng (Regression substitution) hoặc sử dụng phương pháp thay thế lặp, MI

Thay thế bằng giá trị trung bình là việc thay thế các giá trị trống bằng giá trị trung bình của biến.
Thay thế bằng giá trị ước lượng là việc thay thế các giá trị trống bằng giá trị biểu thức ước lượng của biến dự báo dựa vào những biến khác.

Cả thay thế bằng giá trị trung bình và thay thế bằng giá trị ước lượng có thể được thực hiện bằng cách sử dụng: Transform > Replace Missing Cases.

Xem thêm: các phương pháp thay thế giá trị trống