Mở đầu: Thống kê số ngày trong tháng Sáu năm 2021 và năm 2022 theo nhiệt độ cao nhất trong ngày tại Hà Nội, người ta thu được bảng sau:
Hỏi tháng Sáu năm nào ở Hà Nội nhiệt độ cao nhất trong ngày biến đổi nhiều hơn?
Trả lời:
Năm 2021
+) Khoảng biến thiên: R1 = 40 – 30 = 10.
+) Ta có cỡ mẫu là n = 30.
Gọi x1; x2; …; x30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2021 được sắp xếp theo thứ tự tăng dần.
Ta có tứ phân vị thứ nhất của mẫu số liệu là x8 thuộc nhóm [32; 34). Do đó nhóm chứa tứ phân vị thứ nhất là [32; 34).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu là x23 thuộc nhóm [38; 40). Do đó nhóm chứa tứ phân vị thứ ba là [38; 40).
Ta có .
Do đó khoảng tứ phân vị D1Q = 38,333 – 33,375 = 4,958.
Năm 2022
+) Khoảng biến thiên R2 = 40 – 28 = 12.
Ta có cỡ mẫu là n = 30.
Giả sử y1, y2, …, y30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2022 được sắp xếp theo thứ tự tăng dần.
Ta có tứ phân vị thứ nhất của mẫu số liệu gốc là y8 thuộc nhóm [32; 34) nên nhóm chứa tứ phân vị thứ nhất là [32; 34).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu gốc là y23 thuộc nhóm [36; 38) nên nhóm chứa tứ phân vị thứ ba là [36; 38).
Ta có .
Khoảng tứ phân vị: D2Q = 36,625 – 33,25 = 3,375.
Theo khoảng biến thiên: Vì R2 > R1 nên nhiệt độ cao nhất trong ngày vào tháng 6 năm 2022 biến đổi nhiều hơn nhiệt độ cao nhất trong ngày vào tháng 6 năm 2021.
Theo khoảng tứ phân vị: Vì D1Q > D2Q nên nhiệt độ cao nhất trong ngày vào tháng 6 năm 2021 biến đổi nhiều hơn nhiệt độ cao nhất trong ngày vào tháng 6 năm 2022.
1. Khoảng biến thiên
Hoạt động 1: Trong tình huống mở đầu, gọi x1, x2, …, x30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2021 (mẫu số liệu gốc).
a) Có thể tính chính xác khoảng biến thiên cho mẫu số liệu gốc hay không?
b) Giá trị lớn nhất, giá trị nhỏ nhất xi có thể nhận là gì?
c) Hãy đưa ra một giá trị xấp xỉ cho khoảng biến thiên của mẫu số liệu gốc.
Trả lời:
a) Không thể tính chính xác khoảng biến thiên cho mẫu số liệu gốc.
b) Giá trị nhỏ nhất có thể là 30oC, giá trị lớn nhất là giá trị nhiệt độ lớn nhất có thể là 39,9oC
c) Một giá trị xấp xỉ cho khoảng biến thiên của mẫu số liệu gốc là: 39,9 - 30 = 9,9oC
Câu hỏi: Chỉ ra rằng khoảng biến thiên của mẫu số liệu ghép nhóm trong Bảng 3.1 lớn hơn khoảng biến thiên của mẫu số liệu gốc.
Trả lời:
Khoảng biến thiên của mẫu số liệu ghép nhóm trong Bảng 3.1 là R = ak + 1 – a1.
Giá trị nhỏ nhất của mẫu số liệu gốc giả sử là a1' > a1.
Giá trị lớn nhất của mẫu số liệu gốc giả sử là ak+1' < ak+1.
Khoảng biến thiên của mẫu số liệu gốc là:
R' = ak+1' – a1' < ak+1 – a1 = R.
Luyện tập 1: Thời gian hoàn thành bài kiểm tra môn Toán của các bạn trong lớp 12C được cho trong bảng sau:
a) Tính khoảng biến thiên R cho mẫu số liệu ghép nhóm trên.
b) Nếu biết học sinh hoàn thành bài kiểm tra sớm nhất mất 27 phút và muộn nhất mất 43 phút thì khoảng biến thiên của mẫu số liệu gốc là bao nhiêu?
Trả lời:
a) Khoảng biến thiên R cho mẫu số liệu ghép nhóm trên là: 45 − 25 = 20
b) Khoảng biến thiên của mẫu số liệu gốc là: 43 − 27 = 16
2. Khoảng tứ vị phân
Hoạt động 2: Trong tình huống mở đầu, gọi y1, y2, …, y30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2022 (mẫu số liệu gốc).
a) Có thể tính chính xác khoảng tứ phân vị của mẫu số liệu gốc hay không?
b) Tìm tứ phân vị thứ nhất Q1 và tứ phân vị thứ ba Q3 cho mẫu số liệu ghép nhóm.
c) Hãy đưa ra một giá trị xấp xỉ cho khoảng tứ phân vị của mẫu số liệu gốc.
Trả lời:
a) Để tính chính xác khoảng tứ phân vị của mẫu số liệu gốc, chúng ta cần biết giá trị cụ thể của từng ngày trong tháng Sáu năm 2022. Tuy nhiên, do không có dữ liệu cụ thể, nên không thể tính chính xác khoảng tứ phân vị.
b) Ta có cỡ mẫu là n = 30.
Giả sử y1, y2, …, y30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2022 được sắp xếp theo thứ tự tăng dần.
Ta có tứ phân vị thứ nhất của mẫu số liệu gốc là y8 thuộc nhóm [32; 34) nên nhóm chứa tứ phân vị thứ nhất là [32; 34).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu gốc là y23 thuộc nhóm [36; 38) nên nhóm chứa tứ phân vị thứ ba là [36; 38).
Ta có .
c) DQ = 36,625 – 33,25 = 3,375.
Luyện tập 2: Một người ghi lại thời gian đàm thoại của một số cuộc gọi cho kết quả như bảng sau:
Tìm khoảng tứ phân vị của mẫu số liệu ghép nhóm trên.
Trả lời:
Ta có bảng số liệu:
Cỡ mẫu là . Gọi
là thời gian đàm thoại của 80 cuộc gọi và giả sử dãy số liệu gốc này đã được sắp xếp theo thứ tự tăng dần.
Vì và
nên nhóm chứa tứ phân vị thứ nhất là nhóm
và tứ phân vị thứ nhất là:
.
Vì và
nên nhóm chứa tứ phân vị thứ ba là nhóm
và tứ phân vị thứ ba là:
.
Vậy khoảng tứ phân vị của mẫu số liệu ghép nhóm là:
Vận dụng: Hãy giải bài toán trong tình huống mở đầu bằng cách sử dụng khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu ghép nhóm.
Trả lời:
Năm 2021
+) Khoảng biến thiên: R1 = 40 – 30 = 10.
+) Ta có cỡ mẫu là n = 30.
Gọi x1; x2; …; x30 là nhiệt độ của 30 ngày tháng Sáu năm 2021 được sắp xếp theo thứ tự tăng dần.
Ta có tứ phân vị thứ nhất của mẫu số liệu là x8 thuộc nhóm [32; 34). Do đó nhóm chứa tứ phân vị thứ nhất là [32; 34).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu là x23 thuộc nhóm [38; 40). Do đó nhóm chứa tứ phân vị thứ ba là [38; 40).
Ta có .
Do đó khoảng tứ phân vị D1Q = 38,333 – 33,375 = 4,958.
Năm 2022
+) Khoảng biến thiên R2 = 40 – 28 = 12.
Ta có cỡ mẫu là n = 30.
Giả sử y1, y2, …, y30 là nhiệt độ cao nhất trong ngày của 30 ngày tháng Sáu năm 2022 được sắp xếp theo thứ tự tăng dần.
Ta có tứ phân vị thứ nhất của mẫu số liệu gốc là y8 thuộc nhóm [32; 34) nên nhóm chứa tứ phân vị thứ nhất là [32; 34).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu gốc là y23 thuộc nhóm [36; 38) nên nhóm chứa tứ phân vị thứ ba là [36; 38).
Ta có .
Khoảng tứ phân vị: D2Q = 36,625 – 33,25 = 3,375.
Theo khoảng biến thiên: Vì R2 > R1 nên nhiệt độ cao nhất trong ngày vào tháng 6 năm 2022 biến đổi nhiều hơn nhiệt độ cao nhất trong ngày vào tháng 6 năm 2021.
Theo khoảng tứ phân vị: Vì D1Q > D2Q nên nhiệt độ cao nhất trong ngày vào tháng 6 năm 2021 biến đổi nhiều hơn nhiệt độ cao nhất trong ngày vào tháng 6 năm 2022.
Bài tập
Bài 3.1: Thống kê số thẻ vàng của mỗi câu lạc bộ trong giải ngoại hạng Anh mùa giải 2021 – 2022 cho kết quả sau:
a) Hãy ghép nhóm dãy số liệu trên thành các nhóm có độ dài bằng nhau với nhóm đầu tiên là [40; 50).
b) Tính khoảng biến thiên, khoảng tứ phân vị của mẫu số liệu gốc và mẫu số liệu ghép nhóm thu được ở câu a. Giá trị nào là giá trị chính xác? Giá trị nào là giá trị xấp xỉ?
Trả lời:
a) Bảng số liệu ghép nhóm:
b) Với mẫu số liệu gốc: Khoảng biến thiên là: .
Sắp xếp mẫu số liệu theo thứ tự không giảm là:
Vì nên tứ phân vị thứ nhất là trung vị của dãy số liệu:
Do đó,
Tứ phân vị thứ ba là trung vị của dãy số liệu: .
Do đó, .
Khoảng tứ phân vị là:
Với mẫu số liệu ghép nhóm: Khoảng biến thiên là:
Cỡ mẫu là . Gọi
là số thẻ vàng mà mỗi câu lạc bộ ngoại hạng Anh nhận được mùa giải 2021- 2022, các giá trị này đã được sắp xếp theo thứ tự không giảm.
Tứ phân vị thứ nhất của mẫu số liệu gốc là nên nhóm chứa tứ phân vị thứ nhất là nhóm
và ta có:
.
Tứ phân vị thứ ba của mẫu số liệu gốc là nên nhóm chứa tứ phân vị thứ ba là nhóm
và ta có:
.
Khoảng biến thiên của mẫu số liệu ghép nhóm là:
Giá trị chính xác là ;
, giá trị xấp xỉ là
;
Bài 3.2: Thu nhập theo tháng (đơn vị: triệu đồng) của người lao động ở hai nhà máy như sau:
Tính mức thu nhập trung bình của người lao động ở hai nhà máy trên. Dựa vào khoảng tứ phân vị, hãy xác định xem mức thu nhập của người lao động ở nhà máy nào biến động nhiều hơn.
Trả lời:
Chọn giá trị đại diện cho mẫu số liệu ta có:
Mức thu nhập trung bình của người lao động nhà máy A là:
(triệu đồng).
Mức thu nhập trung bình của người lao động nhà máy B là:
(triệu đồng).
Nhà máy A
Cỡ mẫu n = 20 + 35 + 45 + 35 + 20 = 155.
Gọi x1; x2; …; x155 là mức thu nhập của 155 công nhân lao động của nhà máy A và được sắp xếp theo thứ tự tăng dần
Tứ phân vị thứ nhất của mẫu số liệu là x39 thuộc nhóm [8; 11) nên nhóm chứa tứ phân vị thứ nhất là [8; 11).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu là x117 thuộc nhóm [14; 17) nên nhóm chứa tứ phân vị thứ ba là [14; 17).
Ta có .
Khoảng tứ phân vị: RAQ = 15,4 – 9,6 = 5,8.
Nhà máy B
Cỡ mẫu n = 17 + 23 + 30 + 23 + 17 = 110.
Gọi y1; y2; …; y110 là mức thu nhập của 110 công nhân lao động của nhà máy B và được sắp xếp theo thứ tự tăng dần.
Tứ phân vị thứ nhất của mẫu số liệu là y28 thuộc nhóm [8; 11) nên nhóm chứa tứ phân vị thứ nhất là [8; 11).
Ta có .
Tứ phân vị thứ ba của mẫu số liệu là y83 thuộc nhóm [14; 17) nên nhóm chứa tứ phân vị thứ ba là [14; 17).
Ta có .
Khoảng tứ phân vị .
Vì RBQ > RAQ nên mức thu nhập của người lao động ở nhà máy B biến động nhiều hơn.
Bài 3.3: Bảng sau đây cho biết chiều cao của các học sinh lớp 12A và 12B.
a) Tìm khoảng biến thiên, khoảng tứ phân vị cho các mẫu số liệu ghép nhóm về chiều cao của học sinh lớp 12A, 12B.
b) Để so sánh độ phân tán về chiều cao của học sinh hai lớp này ta nên dùng khoảng biến thiên hay khoảng tứ phân vị? Vì sao?
Trả lời:
a) Lớp 12A: Khoảng biến thiên:
Ta có cỡ mẫu. Gọi
là chiều cao của các học sinh lớp 12A và giả sử dãy số liệu gốc này đã được sắp xếp theo thứ tự không giảm.
Vì và
nên nhóm chứa tứ phân vị thứ nhất là nhóm
và tứ phân vị thứ nhất là:
.
Vì và
nên nhóm chứa tứ phân vị thứ ba là nhóm
và tứ phân vị thứ ba là:
.
Khoảng tứ phân vị của mẫu số liệu ghép nhóm là:
Lớp 12B: Khoảng biến thiên:
Ta có cỡ mẫu. Gọi
là là chiều cao của các học sinh lớp 12B và giả sử dãy số liệu gốc này đã được sắp xếp theo thứ tự không giảm.
Vì và
nên nhóm chứa tứ phân vị thứ nhất là nhóm
và tứ phân vị thứ nhất là:
.
Vì và
nên nhóm chứa tứ phân vị thứ ba là nhóm
và tứ phân vị thứ ba là:
.
Khoảng tứ phân vị của mẫu số liệu ghép nhóm là:
b) Để so sánh độ phân tán về chiều cao của học sinh hai lớp này, ta nên dùng khoảng tứ phân vị vì khoảng tứ phân vị chỉ phụ thuộc vào nửa giữa của mẫu số liệu, không bị ảnh hưởng bởi các giá trị bất thường.