Trung vị (Median): Khái niệm, Cách tìm và Ứng dụng
Khái niệm
Trong thống kê, Trung vị (tiếng Anh: Median) là một đại lượng đo lường xu hướng trung tâm. Nó biểu thị giá trị nằm ở giữa trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần.
Để xác định giá trị trung vị, bước đầu tiên và quan trọng nhất là phải sắp xếp tất cả các giá trị trong tập dữ liệu theo một thứ tự nhất quán, có thể là từ nhỏ nhất đến lớn nhất hoặc ngược lại. Sau khi sắp xếp, trung vị sẽ là giá trị đại diện cho “phần giữa” của tập dữ liệu.
[IMAGE_1: Minh họa tập dữ liệu đã sắp xếp]
Trung vị thường được sử dụng để đưa ra một cái nhìn gần đúng về giá trị trung tâm của dữ liệu. Tuy nhiên, điều quan trọng là không nhầm lẫn trung vị với giá trị trung bình thực (Mean). Mặc dù cả hai đều là các thước đo xu hướng trung tâm, chúng có những cách tính và ứng dụng khác nhau, đặc biệt là khi đối mặt với các giá trị ngoại lai.
Cách xác định Trung vị dựa trên số lượng điểm dữ liệu:
- Khi số lượng điểm dữ liệu là lẻ: Trung vị chính là giá trị nằm ở vị trí chính giữa của dãy số đã sắp xếp. Giá trị này có đặc điểm là có cùng một số lượng điểm dữ liệu nằm ở phía dưới nó và phía trên nó.
Ví dụ: Tập dữ liệu {2, 5, 8, 11, 15}. Sau khi sắp xếp, ta thấy 8 là giá trị ở giữa. Bên trái có {2, 5} (2 số) và bên phải có {11, 15} (2 số). Vậy trung vị là 8.
- Khi số lượng điểm dữ liệu là chẵn: Trong trường hợp này, không có một giá trị duy nhất nằm ở chính giữa. Để tìm trung vị, chúng ta cần xác định hai giá trị nằm ở hai vị trí gần giữa nhất. Sau đó, cộng hai giá trị này lại và chia cho 2 để lấy giá trị trung bình của chúng.
Ví dụ: Tập dữ liệu {3, 6, 9, 12, 15, 18}. Sau khi sắp xếp, hai giá trị ở giữa là 9 và 12. Trung vị sẽ là (9 + 12) / 2 = 10.5.
[IMAGE_2: Hình ảnh minh họa cách tính Median cho tập dữ liệu lẻ và chẵn]
Ưu điểm của Trung vị so với Giá trị trung bình (Mean):
Trung vị có một ưu điểm vượt trội so với giá trị trung bình (Mean) trong các tình huống có sự hiện diện của các điểm ngoại lai (outliers). Điểm ngoại lai là những giá trị quá lớn hoặc quá nhỏ so với phần lớn các giá trị khác trong tập dữ liệu. Những điểm này có khả năng làm sai lệch đáng kể giá trị trung bình, khiến nó không còn phản ánh đúng xu hướng trung tâm của dữ liệu.
Ngược lại, trung vị ít bị ảnh hưởng bởi các giá trị cực đoan này. Vì trung vị chỉ quan tâm đến vị trí của các giá trị, nên dù một hoặc hai giá trị có rất lớn hoặc rất nhỏ, chúng cũng không làm thay đổi đáng kể vị trí của giá trị nằm ở giữa.
Do đó, khi phân tích dữ liệu có khả năng chứa các điểm ngoại lai, như thu nhập, giá nhà, hoặc kết quả của các thử nghiệm có sai số lớn, việc sử dụng trung vị sẽ cung cấp một bức tranh chính xác và đáng tin cậy hơn về “giá trị điển hình” hoặc “giá trị trung tâm” của tập dữ liệu.
Mẹo tìm Median
Việc tìm giá trị trung vị (Median) thường tuân theo các bước đơn giản và có hệ thống:
- Sắp xếp dữ liệu: Bước đầu tiên và quan trọng nhất là sắp xếp toàn bộ tập dữ liệu theo một thứ tự nhất định. Đối với các tập số nguyên, cách phổ biến nhất là sắp xếp theo thứ tự tăng dần (từ nhỏ nhất đến lớn nhất). Điều này giúp xác định vị trí của các giá trị một cách dễ dàng.
- Xác định giá trị giữa:
- Nếu tập dữ liệu có số lượng phần tử là lẻ, giá trị ở vị trí chính giữa sau khi sắp xếp chính là Median.
- Nếu tập dữ liệu có số lượng phần tử là chẵn, sẽ không có một vị trí chính xác ở giữa. Trong trường hợp này, chúng ta xác định hai giá trị nằm ở hai vị trí gần giữa nhất. Sau đó, tính giá trị trung bình của hai giá trị này để có được Median.
Phân biệt Mean, Median, Mode và Range
Khi làm việc với dữ liệu, chúng ta thường gặp các đại lượng thống kê khác nhau. Dưới đây là sự phân biệt giữa Mean, Median, Mode và Range để tránh nhầm lẫn:
- Mean (Giá trị trung bình): Đây là khái niệm trung bình phổ biến nhất mà chúng ta thường nghĩ đến. Mean được tính bằng cách cộng tất cả các giá trị trong tập dữ liệu lại, sau đó chia cho tổng số lượng các giá trị đó.
Công thức: Mean = (Tổng tất cả các giá trị) / (Số lượng giá trị)
- Median (Trung vị): Như đã giải thích ở trên, Median là giá trị nằm ở chính giữa của tập dữ liệu đã được sắp xếp. Nó đại diện cho điểm phân chia dữ liệu thành hai nửa bằng nhau.
- Mode (Yếu vị): Mode là giá trị xuất hiện nhiều nhất trong một tập dữ liệu. Một tập dữ liệu có thể có một mode (unimodal), nhiều mode (multimodal) hoặc không có mode nào nếu không có giá trị nào lặp lại.
Ví dụ: Trong tập {2, 3, 3, 4, 5, 5, 5, 6}, Mode là 5 vì nó xuất hiện 3 lần, nhiều nhất so với các giá trị khác.
- Range (Khoảng biến thiên): Range là thước đo sự phân tán đơn giản nhất, thể hiện độ rộng của tập dữ liệu. Nó được tính bằng cách lấy giá trị lớn nhất (Max) trừ đi giá trị nhỏ nhất (Min) trong tập dữ liệu.
Công thức: Range = Max – Min
[IMAGE_3: Biểu đồ so sánh Mean, Median, Mode]
Các ví dụ về Median
Ví dụ 1: Dữ liệu thu nhập cá nhân
Xét tập dữ liệu về thu nhập hàng tháng (tỷ đồng) của một nhóm người:
13, 18, 13, 14, 13, 16, 14, 21, 13
- Tính Mean:
(13 + 18 + 13 + 14 + 13 + 16 + 14 + 21 + 13) ÷ 9 = 150 ÷ 9 ≈ 16.67 tỷ đồng
- Tìm Median:
- Sắp xếp các số theo thứ tự tăng dần: 13, 13, 13, 13, 14, 14, 16, 18, 21.
- Số lượng điểm dữ liệu là 9 (lẻ). Vị trí giữa là (9 + 1) ÷ 2 = 5.
- Giá trị ở vị trí thứ 5 là 14.
Vậy, Median = 14 tỷ đồng.
Nhận xét: Trong trường hợp này, Mean (16.67) cao hơn Median (14). Giá trị 21 có thể là một điểm ngoại lai ảnh hưởng lên Mean, còn Median 14 phản ánh tốt hơn mức thu nhập của số đông.
- Mode: Giá trị 13 xuất hiện nhiều nhất (4 lần), vậy Mode = 13 tỷ đồng.
- Range: Max (21) – Min (13) = 8 tỷ đồng.
[IMAGE_4: Biểu đồ cột thể hiện dữ liệu ví dụ 1]
Ví dụ 2: Điểm số của học sinh trong bài kiểm tra
Xét tập dữ liệu về điểm số của 4 học sinh:
1, 2, 4, 7
- Tính Mean:
(1 + 2 + 4 + 7) ÷ 4 = 14 ÷ 4 = 3.5 điểm
- Tìm Median:
- Các số đã được sắp xếp: 1, 2, 4, 7.
- Số lượng điểm dữ liệu là 4 (chẵn). Hai vị trí gần giữa là thứ 2 và thứ 3.
- Giá trị ở vị trí thứ 2 là 2, và ở vị trí thứ 3 là 4.
- Tính trung bình của hai giá trị này: (2 + 4) ÷ 2 = 6 ÷ 2 = 3.
Vậy, Median = 3 điểm.
Nhận xét: Mean và Median khá gần nhau trong trường hợp này, phản ánh phân bố điểm tương đối đều.
- Mode: Không có giá trị nào lặp lại, vậy không có Mode.
- Range: Max (7) – Min (1) = 6 điểm.
Ví dụ 3: Số lượng sản phẩm lỗi mỗi ngày
Xét tập dữ liệu về số lượng sản phẩm lỗi trong 10 ngày:
8, 9, 11, 10, 10, 11, 10, 11, 12, 13
- Tính Mean:
(8 + 9 + 11 + 10 + 10 + 11 + 10 + 11 + 12 + 13) ÷ 10 = 105 ÷ 10 = 10.5 sản phẩm lỗi
- Tìm Median:
- Sắp xếp các số theo thứ tự tăng dần: 8, 9, 10, 10, 10, 11, 11, 11, 12, 13.
- Số lượng điểm dữ liệu là 10 (chẵn). Hai vị trí gần giữa là thứ 5 và thứ 6.
- Giá trị ở vị trí thứ 5 là 10, và ở vị trí thứ 6 là 11.
- Tính trung bình của hai giá trị này: (10 + 11) ÷ 2 = 21 ÷ 2 = 10.5.
Vậy, Median = 10.5 sản phẩm lỗi.
Nhận xét: Trong trường hợp này, Mean và Median có giá trị bằng nhau, cho thấy sự phân bố dữ liệu khá cân bằng.
- Mode: Giá trị 10 và 11 đều xuất hiện 3 lần, là số lần xuất hiện nhiều nhất. Vậy Mode là 10 và 11 (dữ liệu có hai mode).
- Range: Max (13) – Min (8) = 5 sản phẩm lỗi.
Qua các khái niệm và ví dụ trên, hy vọng bạn đọc đã hiểu rõ hơn về Median là gì, cách tính và tại sao nó lại là một công cụ thống kê quan trọng, đặc biệt là khi so sánh với các đại lượng khác như Mean.
Nguồn bài viết: Tổng hợp và cập nhật từ các nguồn uy tín trên Google
- //atpcare.vn/median-la-gi/
- //vietnambiz.vn/trung-vi-median-la-gi-vi-du-ve-trung-vi-2019110713491368.htm
“`







