Facebook Pixel

Kỹ thuật lấy mẫu trong thống kê mà một DA không nên bỏ qua

29 Apr, 2022

Trong bài này mình sẽ liệt kê khái niệm về các phương pháp lấy mẫu hiện có, việc chọn mẫu sẽ ảnh hưởng trực tiếp đến kết quả phân tích và những suy luận của bạn

Kỹ thuật lấy mẫu trong thống kê mà một DA không nên bỏ qua

Mục Lục

Trong bài này mình sẽ liệt kê khái niệm về các phương pháp lấy mẫu hiện có, việc chọn mẫu sẽ ảnh hưởng trực tiếp đến kết quả phân tích và những suy luận của bạn.

Bài viết này sẽ thuần về lý thuyết và sẽ không có ứng dụng cụ thể, mình dự định sẽ chia sẽ nó trong các bài sắp tới đây, vì khái niệm khá là dài mà chia nhỏ ra sẽ dễ quên nên các bạn thông cảm nhé.

1. Phân biệt Census, Sampling và Experimentation

Nếu bạn đang muốn thực hiện một nghiên cứu Thống kê và dữ liệu bạn cần không có sẵn (trong ngân hàng dữ liệu, các nghiên cứu trước đó, ...) thì bạn phải thực hiện lấy dữ liệu toàn diện hay còn gọi là Census.  Tuy nhiên như ở bài viết trước đó mình đã có nói việc ghi nhận dữ liệu của toàn bộ Population là không khả thi, tốn nhiều tiền bạc và thời gian.

Nếu các bạn chưa rõ Sample và Population là gì có thể tham khảo bài viết trước của mình tại đây

Kiến thức cơ bản về Thống kê cho Data Analyst
Nếu bạn đang thắc mắc Thống kê (Statistics) là gì, các khái niệm xung quanh nó dành cho một người hoàn toàn mới, thì bạn đến đúng nơi rồi đấy, những khái niệm này không đòi hỏi bạn phải có kiến thức nền về Toán đâu. Nào chúng ta hãy cùng bắt đầu thôi
A census — that is, by obtaining information for the entire
population of interest

Thay vào đó 2 phương pháp khác là Sampling (lấy mẫu) và Experimentation (thí nghiệm) được sử dụng nhiều hơn vì tính khả thi của chúng.

Nếu bạn thấy  phương pháp lấy mẫu phù hợp với bài nghiên cứu thì bước kế tiếp là chọn loại lấy mẫu. Bởi vì tập Sample sẽ được dùng để suy ra những kết luận cho tập lớn Population, vì thế chúng nên là những Sample có tính đại diên (representative) cho số đông.

Ví dụ: lấy cân nặng trung bình của các cầu thủ bóng đá chuyên nghiệp làm giá trị đại diện cho cân nặng trung bình của tất cả nam giới trường thành sẽ không phù hợp. Cũng tương tự như vậy lấy thu nhập trung bình đầu người của TP Hồ Chí Mình đại diện cho GDP cả nước sẽ không thỏa đáng.

Một câu chuyện thú vị

Để thấy được mức độ ảnh hưởng của việc chọn mẫu (Sampling) không có tính đại diện cho số đông, ta cùng xem một ví dụ thú vị sau đây. Trước cuộc bầu cử tổng thống Mỹ năm 1936, Tạp chí Literacy Digest đã tiến hành thăm do quần chúng, nhóm thực hiện khảo sát đã hỏi một tập mẫu (Sample) người dân xem liệu họ sẽ bỏ phiếu cho Franklin D. Roosevelt ứng viên đảng Dân chủ hay Alfred Landon ứng viên đảng cộng hòa.

Dự trên kết quả khảo sát, tạp chí dự đoán Landon sẽ giành chiến thắng. Tuy nhiên khi bầu cữ diễn ra, kết quả cho thấy Roosevelt đã thắng lợi áp đảo với hơn 60% phiếu bầu. Chuyện gì đã xảy ra thế ?

  • Sample là những người có sở hữu ô tô hoặc điện thoại, vào thời điểm năm 1936 họ được liệt vào nhóm có điều kiện và những người này thì có xu hướng ủng hộ đảng cộng hòa
  • Tỉ lệ phản hồi thấp (chỉ có 25% người được thăm dò trả lời), điều này dẫn đến sự thiên vị (bias) trong kết quả (đa số những người trả lời có xu hướng ủng hộ Landon)

Hầu hết các thủ tục lấy mẫu hiện đại đều áp dụng Probability Sampling - Lấy mẫu ngẫu nhiên. Với phương pháp này, người ta sẽ sử dụng các công cụ ngẫu nhiên như: tung đồng xu, tham khảo bảng số ngẫu nhiên (random table), hoặc công cụ chọn số ngẫu nhiên (random number generator - https://www.random.org/) giúp họ chọn ra một phần tử ngẫu nhiên đưa vào tập Sample thay vì để con người quyết định một cách cảm tính.

Nếu bạn đang thắc mắc là nếu lỡ xui mình chọn ngẫu nhiên trúng tập Sample không mang tính đại diện thì sao ? Thì bạn thắc mắc đúng rồi đấy, nó không giúp bạn loại bỏ hết được nguy cơ nhưng sẽ giúp bạn hạn chế phần nào, trong phần sắp tới mình sẽ giới thiệu với bạn các phương pháp lấy mẫu ngẫu nhiên phổ biến.

2. Simple Random Sampling

Bạn có thể hiểu đơn giản là mẫu được chọn một cách ngẫu nhiên, bất kì phần tử nào cũng có xác suất được chọn như nhau, giống như việc bạn tung đồng xu lên thì xác suất mặt ngửa là 50% và mặt sấp cũng là 50% => xác suất bằng nhau.

Simple random sampling: A sampling procedure for which each possible sample of a given size is equally likely to be the one obtained.
Simple random sample: A sample obtained by simple random sampling.

Chắc đọc tới đây bạn sẽ thấy nó khá giống mấy bài toán xác xuất rồi đúng hông, bạn đoán đúng rồi đó có 2 loại Simple Random Sampling:

  • Simple random sampling with replacement (SRSWR): một item có thể được chọn nhiều lần vì chọn xong rồi mình lại bỏ vào chỗ cũ (replace)
  • Simple random sampling without replacement (SRS): một item được chọn nhiều nhất là 1 lần, chọn xong thì lấy hẳn ra luôn.

Nếu như chúng ta nói là dùng phương pháp Simple Random Sampling và không mô tả thêm gì, bạn có thể hiểu nó là SRS nhé.

3. Systematic Random Sampling

Simple random sampling là phương pháp lấy mẫu đơn giản và dễ hiểu, cứ chọn ngẫu nhiên thôi, tuy nhiên trong nhiều trường hợp đặc thù thì phương pháp này sẽ bộc lộ điểm yếu, ví dụ khi một tập con trong dữ liệu bắt buộc xuất hiện hay dữ liệu có tính phân tán về mặt địa lý. Ví dụ như khi bạn  chọn đáp viên từ một Population đến từ 3 tỉnh thành để làm khảo sát, để có tính khách quan bạn được yêu cầu phải chọn sao cho tất cả 3 tỉnh thành đều có người được chọn. Cho ra đời phương pháp chọn mẫu hệ thống

Steps Description
Step 1 Divide the population size by the sample size and round the result down to the nearest whole number, m.
Step 2 Use a random-number table or a similar device to obtain a number, k, between 1 and m.
Step 3 Select for the sample those members of the population that are numbered k, k + m, k + 2m, . . . .

Bây giờ chúng ta sẽ cùng đi vào một ví dụ cho dễ hiểu hơn nhé. Giáo sư Professor Hassett muốn chọn ra 15 học sinh trong tổng số 728 sinh viên của mình sử dụng phương pháp lấy mẫu hệ thống.

  • Bước 1: Population size = 728, sample size = 15, m = 728/15  = 48 (đã làm tròn)
  • Bước 2: Chọn một số bất kì ngẫu nhiên k từ 1->m tức là 1->48 ấy, bạn cứ chọn số nào cũng được nhé, ví dụ chọn k = 22
  • Bước 3: Sau khi đã có k m rồi bạn cứ áp dụng công thức lấy các số thức k, k+m, k+2m, ... chúng ta sẽ có bảng sau:

Các sinh viên có số thứ tự trong bảng trên sẽ được chọn tham gia khảo sát. Tóm gọn lại phương pháp này sẽ  cắt sinh viên thành 48 phần và mỗi phần mình chọn 1 người ra để tăng độ phủ (coverage), thay vì nếu chọn theo phương pháp đơn giản, các phần tử được chọn sẽ không may tụ họp chung một chỗ, mà ở quá gần nhau thì có khả năng là cùng đặc tính, cùng sở thích ... giống như việc bạn ngồi gần bạn bè trên giảng đường vậy.

4. Cluster Sampling

Phương pháp lấy mẫu theo cụm đặc biệt hữu ích khi dữ liệu có tính phân tán về mặt địa lý.

Steps Description
Step 1 Divide the population into groups (clusters).
Step 2 Obtain a simple random sample of the clusters.
Step 3 Use all the members of the clusters obtained in Step 2 as the sample.

Ví dụ bạn chia nhóm người khảo sát ra theo tỉnh họ sinh sống (cluster), sau đó mỗi tỉnh chọn ra ngẫu nhiên 2 người để tham gia khảo sát.

Hình bên dưới là ví dụ của việc lấy khảo sát của người dân theo từng cụm bàn cờ, bạn sẽ nhận ra được việc chia nhóm theo cluster giúp bạn có cái nhìn khái quát hơn, thay vì cứ chọn ngẫu nhiên mà vô tình 90% lại rớt hết vào khu nhà giàu trung lưu hay khu thu nhập thấp, dẫn đến cách đánh giá sai lệch.

5. Stratified Sampling

Lấy mẫu phân tổ - Statified Sampling là phương pháp lấy mẫu đáng tin cậy hơn cluster sampling, tập Population sẽ được chia thành các nhóm (tổ) gọi là starta (số nhiều), sau đó với mỗi stratum (số ít) mình sẽ lấy mẫu ngẫu nhiên ở trên đó. Tuy nhiên hơi khác so với cluster sampling thì số lượng sample lấy ở mỗi stratum sẽ phụ thuộc vào độ lớn của nó, hay gọi là propotional allocation, giống như lương nhiều thì đóng thuế nhiều đó các bạn

Steps Description
Step 1 Divide the population into subpopulations (strata).
Step 2 From each stratum, obtain a simple random sample of size proportional to the size of the stratum; that is, the sample size for a stratum equals the total sample size times the stratum size divided by the population size.
Step 3 Use all the members obtained in Step 2 as the sample.

Bây giờ chúng ta sẽ cùng đi vào một ví dụ cụ thể luôn nhé. Giả sử chúng ta có một tập population lớn 2000 người được chia thành các strata có độ lớn như sau: 400, 600, 800, 200. Hãy sử dụng phương pháp lấy mẫu phân tổ để lấy Sample 10 người.

  • Bước 1: Chia nhỏ nhóm theo các đặt điểm như mức thu nhập, độ tuổi, ... Thật may mắn chúng ta đã được đề bài chia sẵn rồi nên bước này bỏ qua nhé.
  • Bước 2: Xác định mỗi stratum chúng ta sẽ lấy bao nhiêu item theo công thức sau
    sample_size x (stratum_size/population_size) = 10*(400/2000) = 2
    Sau đó bạn sẽ chọn ngẫu nhiên một số bất kì stratum, bạn có thể dùng radom.org để random s. Chi tiết ở bảng bên dưới nhé.
  • Tổng hợp các số được chọn làm Sample ở bước 2 thôi nhé

6. Multistage Sampling

Đây là phương pháp áp dụng việc sử dụng nhiều phương pháp lấy mẫu: ngẫu nhiên, phân tổ, phân cụm, ... thường được sử dụng trong nhiều nhiên cứu có quy mô lớn. Mình sẽ chia sẽ chi tiếc lựa chọn cách lấy mẫu nào cho phù hợp trong các bài viết tiếp theo nhé

Chúng ta đã đi qua các khái niệm về Cencus và Sampling, Mình xin phép không giải thích  về Experimentation trong series này vì out of scope, các bạn có thể tìm hiểu thêm trên Google nếu muốn, cám ơn bạn đã đọc hết bài viết, hẹn gặp lại các bạn ở những chương tiếp theo.

Tham khảo: Introductory Statistics - Pearson (2017)

Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!

Bài viết liên quan

Lập trình backend expressjs

xây dựng hệ thống microservices
  • Kiến trúc Hexagonal và ứng dụngal font-
  • TypeScript: OOP và nguyên lý SOLIDal font-
  • Event-Driven Architecture, Queue & PubSubal font-
  • Basic scalable System Designal font-

Đăng ký nhận thông báo

Đừng bỏ lỡ những bài viết thú vị từ 200Lab