Độ lệch chuẩn nghĩa là gì

Hoàng Mỹ 40 đã đăng:

Mình đang gặp khó khăn trong việc hiểu khái niệm và ý nghĩa của độ lệch chuẩn? Mọi người ai có thể đưa ra ví dụ và giải thích một cách dễ hiểu về độ lệch chuẩn được không ạ?

độ lệch chuẩn toán học xác suất thống kê
Bỏ theo dõi
  • Theo dõi bài viết qua tin nhắn
  • Theo dõi bài viết qua email
  • Bỏ theo dõi
Hoàng Mỹ
đã hỏi 3.9 năm trước bởi
Hoàng Mỹ 40
thêm bình luận...
MinhHung 60 đã đăng:

Mình cũng từng gặp khái niệm này giống bạn, lúc đầu có hơi mông lung nhưng sau một thời gian nghiền ngẫm, cuối cùng mình cũng đã hiểu ra. Mình sẽ bắt đầu bằng một ví dụ khá thú vị để bạn có thể hiểu ngay khái niệm độ lệch chuẩn mà bắt đầu của độ lệch chuẩn là phương sai.

Có một nhà hàng sau mỗi ngày buôn bán họ đều ghi lại số tiền lời. Giả sử sau vài năm, họ có cột dữ liệu với một bên là ngày, một bên là số tiền lời như sau,

do đó, họ có thể tính được số tiền thu nhập bình quân hàng năm. Năm sau đó, họ đạt số tiền lời cao hơn số tiền lời bình quân hằng năm. Năm sau đó nữa, làm ăn thua lỗ, họ đạt số tiền lời thấp hơn số tiền lời bình quân hằng năm. Cứ như vậy, các giá trị cứ lên xuống liên tục. Sự chênh lệch đó chúng ta gọi là phương sai, tức là sự chênh lệch giữa số tiền lời thực tế hằng năm với số tiền lời trung bình của cửa hàng.

Trong thống kê, độ lệch chuẩn và phương sai đều cùng chung một mục đích đó là dùng để đánh giá sự biến động, phân tán của các giá trị so với giá trị trung bình trong tập dữ liệu. Nhưng khi báo cáo người ta lại thích dùng độ lệch chuẩn hơn. Bây giờ chúng ta bắt đầu với bài tập nhỏ sử dụng công thức tính độ lệch chuẩn để đánh giá dữ liệu.

Giả sử ta có hai tập dữ liệu:

  • A (5, 6, 7, 8):

  • B(1, 9, 10, 15):

Nhìn vào hai hình trên bạn có thể thấy rằng mức độ phân tán của tập dữ liệu A ít hơn mức độ phân tán của tập dữ liệu B. Đó là bạn nhìn bằng mắt, trong toán học phải dùng công thức để tính toán và đánh giá mới khách quan, do đó công thức tính độ lệch chuẩn có thể giúp chúng ta.

Trước tiên muốn tính độ lệch chuẩn, ta phải tính giá trị trung bình của tập dữ liệu A gồm có 4 giá trị: $$\overline{x}_A = \frac{5 + 6 + 7 + 8}{4} = 6.5$$

và tương tự, giá trị trung bình của tập dữ liệu B: $$\overline{x}_B = \frac{1 + 9 + 10 + 15}{4} = 8.75$$

Áp dụng công thức tính phương sai:

$$\sigma^2 = \frac{\Sigma^N_{i = 1} (x_i - \overline{x})^2}{N}$$

Ta có phương sai của tập dữ liệu A:

$$\sigma^2_A = \frac{(5 - 6.5)^2 + (6 - 6.5)^2 + (7 - 6.5)^2 + (8 - 6.5)^2}{4} = 1.25$$

và phương sai của tập dữ liệu B:

$$\sigma^2_B = \frac{(1 - 8.75)^2 + (9 - 8.75)^2 + (10 - 8.75)^2 + (15 - 8.75)^2}{4} = 98.82$$

Công thức tính độ lệch chuẩn rất đơn giản, đó chính là căn của phương sai:

$$s = \sqrt{\sigma^2}$$

Áp dụng vào bài toán, ta có:

$$s_A = \sqrt{\sigma^2_A} = \sqrt{1.25} \approx 1.12$$

$$s_B = \sqrt{\sigma^2_B} = \sqrt{98.82} \approx 9.94$$

Liên hệ với hình ảnh phân bố dữ liệu bên trên và kết quả sau khi tính độ lệch chuẩn, bạn có thể thấy độ lệch chuẩn đã mô tả được sự phân tán giá trị so với giá trị trung bình trong tập dữ liệu với độ lệch chuẩn mà càng lớn thì dữ liệu càng bị phân tán và ngược lại.

MinhHung
đã đăng 3.9 năm trước bởi
MinhHung 60
đã bổ sung 3.9 năm trước bởi
Mr. Carrot 40

Cám ơn bạn nhiều lắm. Thật sự mình học hoài cũng không hiểu khái niệm này vì học chương trình nước ngoài. Nhưng đọc ví dụ và giải thích của bạn mình hiểu 1 cách rất tường tận về sd. Chúc bạn thành công nhé.

Member4388 Member4388 20.11.2018

Ủa tưởng $\text{N}$ trong công thức tính phương sai ở trên phải là $\text{N} - 1$ chứ?

Công thức $ \sigma^2 = \frac{\sum_{i = 1}^N (x_i - \bar{x})^2}{N - 1}$ thay vì $\sigma^2 = \frac{\sum_{i = 1}^N (x_i - \bar{x})^2}{N}$, tại sao vậy?

Cộng đồng Cộng đồng 19.03.2019

Không có gì sai cả, cả 2 công thức đều đúng, chúng chỉ khác nhau ở trường hợp sử dụng.

Ý nghĩa của việc chia cho $\text{N} - 1$ thay vì chia cho $\text{N}$ có thể ví như thay vì ăn hết một cái bánh (trường hợp của $\text{N}$) mới biết được nó có ngon hay không bạn chỉ cần ăn một phần của nó thôi (trường hợp $\text{N} - 1$) cũng đủ biết rồi.

Ví dụ như để đánh giá dân số Việt Nam về chiều cao chẳng hạn, thay vì bạn phải thu thập tất cả chiều cao của 95 triệu dân, bạn chỉ cần thu thập chiều cao của khoảng 1 triệu dân là đủ để đánh giá rồi.

Trong trường hợp bạn muốn tính độ lệch chuẩn/phương sai trên toàn bộ dữ liệu bạn đang có, chia cho $\text{N}$.

Trong trường hợp bạn muốn tính độ lệch chuẩn/phương sai dựa trên một phần nhỏ của dữ liệu bạn đang có, chia cho $\text{N} - 1$.

Ở ví dụ của bạn @MinhHung, bạn @MinhHung sử dụng toàn bộ dữ liệu bạn ấy đang có để tính phương sai nên chia cho $\text{N}$ là đúng, còn tại sao phải như vậy thì bạn có thể xem chứng minh của Friedrich Bessel với thuyết sửa chữa Bessel (Bessel's Correction).

GrayScale Life GrayScale Life 19.03.2019

bạn này cho ví dụ và giải thích rất hay

Cộng đồng Cộng đồng 15.04.2020

Bạn tính sai phương sai của B rồi phải là 25,1875 và sB=5,02 nhé

Cộng đồng Cộng đồng 29.04.2020
thêm bình luận...

Video liên quan

Chủ đề