Thống kê mô tả - Các bước thực hiện một cách chi tiết - Phần 2
19 May, 2022
Hướng nội
AuthorTrong phần này chúng ta sẽ tìm hiểu thống kê mô tả Descriptive Statistics qua khái niệm Measures of Central Tendency và Measures of Spread
Mục Lục
Có tổng cộng 4 bước trong thống kê mô tả:
- Frequcency Distribution
- Graphic Displays of Distributions (Biểu đồ)
- Measures of Central Tendency
- Measures of Spread
Trong phần 1, chúng ta đã tìm hiểu về Frequcency Distribution và Graphic Displays of Distributions (Biểu đồ). Bài viết này chúng ta sẽ tìm hiểu Measures of Central Tendency và Measures of Spread.
1. Measures of Center
Các chỉ số thể hiện giá trị trung tâm , giá trị tiêu biểu hay bạn có thể gọi là giá trị đại diện cho phần đông dữ liệu, có nhiều cách chọn giá trị đại diện ví dụ như: Mean - Trung bình, Median - Trung vị, Mode. Các chỉ số này được gọi là Mesuares of Central Tendency hay Measures of Center với mục đích chọn ra giá trị tiêu biểu, đủ điều kiện đại diện cho phần lớn các giá trị có trong tập dữ liệu của bạn. Theo kinh nghiệm của mình thì với mỗi trường hợp khác nhau sử dụng chỉ số này sẽ tốt hơn chỉ số khác, mình sẽ hướng dẫn các tip sử dụng ở phần bên dưới.
1.1 Mean - Trung bình
Chắc các bạn không xa lạ với chỉ số Mean này như chiều cao trung bình của Nam, Nữ ở Việt Nam lần lượt là 168cm và 156cm. Cách tính rất đơn giảm bạn sum tất cả các giá trị lại và chia cho số lượng giá trị ( thường kí hiệu là n), lưu ý nhỏ là trung bình không phải là giá trị nằm ở trung tâm các bạn nhé. Mean chỉ sử dụng được với dữ liệu định lượng
1.2 Median - Trung vị
Trung vị là giá trị nằm ở trung tâm thật sự, khác với trung bình ở phía trên, đầu tiên bạn sẽ sắp xếp dữ liệu theo thứ tự tăng dần sau đó chọn ra giá trị trung tâm bằng công thức (n+1)/2 với n là tổng số lượng dữ liệu bạn có.
Như hình bên dưới bạn sẽ thấy n = 11 nên suy ra vị trí của median sẽ là (11+1)/2 =6, vị trí thứ 6 lại trùng hợp có giá trị bằng 6, chúng ta nói median của tập dữ liệu là 6. Vậy nếu trong trường hợp vị trí chia ra bị lẻ thì sao ví dụ bạn có n = 10 thì vị trí của median sẽ là (10+1)/2 = 5.5 lúc này bạn sẽ có median bằng giá trị tại vị trí số 5 và số 6 cộng lại chia đôi.
Median chính là giá trị ở vị trí trung tâm nên nó cũng sẽ chia dữ liệu của bạn thành 2 phần bằng nhau về số lượng, bên trái median (giá trị từ 3 đến 5 như hình dưới) là 50% số lượng dữ liệu (tức là 5 số) và bên phải cũng tương tự như vậy 50% số lượng dữ liệu (tức là 5 số), lưu ý là số lượng nha các bạn. Median chỉ sử dụng được với dữ liệu định lượng
1.3 Mode - Yếu vị
Phần trước các bạn đã tìm hiểu Frequency Table rồi đúng ko ạ, để tính được mode đầu tiên bạn sẽ tính tần suất xuất hiện của mỗi giá trị, Mode chính là giá trị có tần suất xuất hiện nhiều nhất, nếu 2 giá trị có cùng tần suất và cùng lớn nhất thì chúng ta có 2 Mode, nếu như không có giá trị nào xuất hiện hơn 1 lần thì tập dữ liệu ấy không có Mode. Mode sử dụng được với cả dữ liệu định tính và định lượng.
1.4 Mean vs Median vs Mode
Chúng ta sẽ cùng xem xét trường hợp nào thì sử dụng giá trị nào để đạt được hiệu quả biểu đạt tốt nhất nhé.
- Bạn dễ dàng nhận thấy Mean sẽ bị ảnh hưởng nếu dữ liệu chứa nhiều giá trị quá lớn hoặc quá bé (outliers) trong khi Median thì không. Ví dụ như dãy số 1,1,1,2,100 dãy số này có Mean = 21 và median = 1, 1 chắc hẳn sẽ đại diện cho dữ liệu tốt hơn con số 21 rất nhiều, mình khuyên bạn hãy sử dụng Median khi dữ liệu của bạn có nhiều giá trị outliers quá lớn hoặc quá bé ở hai đầu các trường hợp còn lại hãy sử dụng Mean.
- Trong các thống kê dân số trung bình ở mỗi tiểu bang ở Mỹ người ta đã dùng con số Median thay vì Mean, mặc dù họ vẫn dùng từ "trung bình" để người khác dễ hiểu nhưng thật sự nó được tính từ Median để hạn chế sự ảnh hưởng của các tiểu bang có dân số quá đông như California, Texas hay quá ít như Alaska, Vermont, tương tự với số người trên một km2.
- Mode lại hoàn toàn mang một ý nghĩa ... không giống với Median và Mean khi chúng cố gắng tìm ra giá trị ở vị trí trung tâm. Thì giá trị xuất hiện nhiều nhất Mode lại không chắc chắn phải nằm ở trung tâm. Mình đã từng dùng Mode trong bài toán xác định khung thời gian một user online nhiều nhất trong ngày, và sau đó phân loại họ.
2. Measures of Variation
Chúng ta đã đi qua khái niệm giá trị trung tâm và xuất hiện nhiều nhất, tuy nhiên sẽ có trường hợp 2 tập dữ liệu có chung Mean, Median, Mode nhưng vẫn có sự khác biệt, như trường hợp chiều cao của 10 cầu thủ bóng rổ dưới đây.
Hai team cho chung chỉ số chiều cao trung bình là 75 inches, Median là 76 inches và mode là 76 inches. Sự khác biệt khá rõ ràng ở đây là Team 1 có chiều cao đồng đều hơn team 2, để mô tả sự khác biệt này người ta sử dụng các chỉ số đo sự thay đổi, biến thiên của dữ liệu được biết đến với tên gọi là measures of variation hay measures of spread. Các chỉ số Measure of Variation phổ biến nhất là : range, quartiles, deciles, percentiles, the five number summary, standard deviation
2.1 Range
Range là hiệu số giữa giá trị lớn nhất và nhỏ nhất (range = max-min)
Team I: Range = 78 - 72 = 6 inches
Team II: Range = 84 - 67 = 17 inches
2.2 Standard Deviation
Standard Deviation (Độ lệch chuẩn - Std) cho ta biết được khoảng cách trung bình (độ phân tán) của các điểm dữ liệu so với giá trị trung bình (Mean). Nếu độ lệch chuẩn thấp tức là dữ liệu có tính biến động thấp và ngược lại, ví dụ mã cổ phiếu mà bạn đang xem xét mua vào có độ lệch chuẩn lớn (Std), cho thấy biên độ giao động xung quanh mức giá trung bình rất lớn, nếu mua bạn mua thì có khả năng sẽ lời rất nhiều hoặc lỗ rất nhiều so với các mã cổ phiểu có Std thấp.
Độ lêch chuẩn được tính bằng căn bậc hai của Phương sai - Variance. Cách tướng phương sai như sau:
- Tìm giá trị trung bình - Mean
- Với mỗi điểm dữ liệu bạn lấy giá trị đó trừ đi Mean và bình phương chúng lên
- Cộng tất cả kết quả từ bước trước chia cho số lượng dữ liệu khảo sát (n)
Bên dưới là tính toán chi tiết Độ lệch chuẩn của nhiệt độ trong ngày
Bạn có thắc mắc giống như mình lý do tại sao Variance lại phải bình phương lên không, thay vì cứ lấy trị tuyệt đối của mỗi điểm dữ liệu trừ đi Mean rồi lấy trung bình ra Độ lệch chuẩn là xong ? Câu trả lời là phép tính bình phương sẽ "nhấn mạnh" các giá trị cách xa điểm Mean, nếu giá trị đang xét cách Mean 2 đơn vị thì phương sai là 4 tuy nhiên nếu cách 5 đơn vị thì phương sai lại tăng lên đến 25, một con số rất lớn, hiểu một cách đơn giản nếu dữ liệu của bạn chứa rất nhiều oulier - cách xa điểm mean về cả 2 phía quá bé hoặc quá lớn thì phương sai của bạn sẽ cực lớn, dẫn đến Std củng sẽ lớn nốt, bình phương làm nổi bật các giá trị oulier. Và vì phương sai đã bình phương rồi nên để trở về đơn vị cũ buộc bạn phải căn bậc hai phương sai ra Độ lệch chuẩn để dễ so sánh với dữ liệu gốc ban đầu.
2.3 Quartiles, Deciles, Percentiles
Bạn đã cùng mình tìm hiểu qua Median, là điểm nằm ở trung tâm chia dữ liệu ra làm 2 phân có số lượng bằng nhau, Quartiles, Deciles, Percentiles cũng tương tự như vậy, lưu ý cần phải sắp xếp dữ liệu tăng dần trước khi tính toán:
- Quartiles: chia dữ liệu ra 4 phần bằng nhau
- Deciles: chia dữ liệu thành 10 phần bằng nhau
- Percentiles: chia dữa liệu thành 100 phần bằng nhau, Median chính là Percentitle(0.5) hay đọc là Percentitle 50%
Lý do tại sao phải chia dữ liệu ra như vậy ? Mình sẽ đưa ra một ví dụ cho bạn dễ hiểu khi sếp bạn yêu cầu tính toán thời gian tối đa để giao một đơn hàng là bao nhiêu để sếp biết mà trao đổi với đối tác. Bạn không thể dùng thời gian giao hàng lớn nhất của tháng trước theo đúng ý sếp được vì lý do các đơn hàng ấy thường là có vấn đề: hàng thất lạc, nhà cung cấp giao thiếu phải giao thêm cho đủ, .... hay nói chính xác chúng là ouliers.
Bạn nảy ra một ý kiến sao mình không sắp xếp thời gian giao hàng của tất cả đơn hàng theo thứ tự tăng dần từ dưới lên trên,và lấy con số ở mức 90% số lượng dữ liêu, 10% còn lại bạn cho chúng là outliers, lưu ý ở đây giúp mình là 90% số lượng nha, nếu dữ liệu bạn có 100 dòng thì mức 90% dữ liệu là ở dòng thứ 90 từ dưới đếm lên, con số đó chính là Percentile(0.9). Ví dụ mình có P(0.9) = 3.5 ngày thì mình sẽ nói với sếp, 90% đơn hàng của chúng ta được giao sớm hơn hoặc bằng 3.5 ngày, sếp cứ yên tâm dùng số này.
Với Quartile bạn sẽ có 4 phần nên Q(1) = Percentile(0.25) ->(25%), ... Decile 10 phần nên D1 = Percentile(0.1). Vì thế mình hay dùng Percentile hơn vì nó chi tiết nhất và 2 cái trên thì đều có thể quy ra Percentitle được.
Tham khảo:
- Introductory Statistics - Pearson (2017)
- floridaschoolleaders
- Standard Deviation
Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!