Hypothesis Testing là quá trình quan trọng trong lĩnh vực thống kê và nghiên cứu. Đây là cách chúng ta đánh giá tính chính xác của giả định dựa trên dữ liệu có sẵn. Hãy cùng khám phá về quá trình quan trọng này và cách nó ảnh hưởng đến quyết định trong nghiên cứu và phân tích dữ liệu nhé!
Hypothesis là gì? Cùng tìm hiểu về khám niệm "Giả Thuyết"
Khái niệm "Hypothesis" trong tiếng Việt được dịch là "giả thuyết". Đây là một ý tưởng hoặc lý giải về một sự kiện dựa trên các sự kiện đã biết nhưng chưa được chứng minh. "Giả thuyết" có thể bao gồm các dự đoán, ước lượng, quan điểm rút ra từ kết quả quan sát hoặc phân tích lý thuyết. Các "giả thuyết" có thể được xác định và kiểm định bằng số liệu từ thực nghiệm.
Hypothesis là một suy đoán (speculation), lý thuyết (theory) hay giả định (assumption) không chắc chắn, chưa có căn cứ hoặc chứng minh đúng sai làm tiền đề cho việc nghiên cứu và kiểm nghiệm.
Ví dụ ta có giả định: Trung bình các gia đình ở Việt Nam có 2 người con.
Hypothesis Testing là gì?
Hypothesis Testing, hay còn được gọi là Kiểm Định Giả Thuyết hoặc Kiểm Tra Giả Thuyết trong tiếng Việt, là một phần quan trọng của lĩnh vực thống kê. Quá trình này đòi hỏi nhà phân tích đánh giá một giả định liên quan đến một tham số của dân số. Phương pháp kiểm tra giả thuyết mà nhà phân tích lựa chọn phụ thuộc vào bản chất và loại dữ liệu đang được nghiên cứu.
Quy trình Hypothesis Testing bao gồm các bước sau đây:
- Xác định và lập giả thiết
- Lên kế hoạch thực hiện phân tích
- Thực hiện phân tích dữ liệu
- Trình bày và đánh giá kết quả
Một ví dụ điển hình là khi ta có giả định rằng trung bình số người con trong mỗi gia đình ở Việt Nam là 2. Hypothesis Testing sẽ giúp xác định tính chính xác của giả định này bằng cách đánh giá dữ liệu mẫu và từ đó kết luận cho toàn bộ tập dữ liệu.
Bước 1: Viết ra các giả thiết
Ví dụ: Anna muốn kiểm tra giả thiết nếu mình tưới hoa bằng Soda thay vì nước bình thường thì Soda có làm cây phát triển nhanh hơn hay không. Anna đã tiến hành tưới 2 chậu cây 1 bằng Soda 1 bằng nước thông thường trong vòng 1 tháng và chứng minh rằng giả thiết của cô ấy đúng. Có 2 giả thiết mà cô ấy cần phải viết ra đó là:
- Null Hypothesis: Loại nước tưới không có ảnh hưởng nào đến mức độ phát triển nhanh hay chậm của chậu hoa, đây là giả thiết mà Anna sẽ cố gắng bác bỏ, vì chỉ cần chứng minh Null Hypothesis thì giả thiết ban đầu của cô đã đúng. Hay nói một cách đơn giản giải thiết này cho rằng mọi chuyện chỉ là ngẫu nhiên thôi, không có mối quan hệ nào giữa loại nước và sự phát triển của cây
- Alternative Hypothesis: Đây là giả thiết nghịch đảo của Null Hypothesis, Qua 1 tháng thì cây được tưới bằng soda sẽ phát triển nhanh hơn chậu cây tưới bằng nước thường. Giả thiết này cho rằng có mối quan hệ giữa loại nước tưới và sự phát triển của cây.
Trong quá trình kiểm định (Testing), chúng ta sẽ kết luận Null hay Alternative Hypothesis đâu mới là giả thiết đúng.
Bước 2: Tạo kế hoạch phân tích
Trong bước này thì bạn sẽ chọn phương pháp Test phù hợp với giả thiết của mình: Chi-squared test, t-test, z-test, ... tính toán giá trị p-value (probability value) sau đó chọn ra vùng chấp nhận hoặc bác bỏ kết quả.
Giả sử với trường hợp tung đồng xu 6 lần, xác suất để 6 lần đầu mặt sấp là 1.56% (0.5^6), xác xuất này thật sự rất bé, nếu như gặp phải trường hợp trên để loại trừ gian lận thì ta sẽ đặt ra một ngưỡng chấp nhận Alpha α=5%, nếu như p-value <5% thì được xem như không hợp lệ
Bước 3: Phân tích dữ liệu
Anna tiến hành apply t-test (tính giá trị trung bình) lên 2 tập dữ liệu:
- Chiều cao trung bình của nhóm tưới bằng Soda : 5.2 cm
- Chiều cao trung bình của nhóm tưới bằng nước thường: 4cm
Kết quả thu được là mean(Soda) # mean(Plain Water). Khi tung đồng xu ta thu được xác suất 6 mặt sấp thì p-value=1.56% và alpha=5%
Bước 4: Trình bày kết quả
Do mean(Soda) # mean(Plain Water) chúng ta kết luận Null Hypothesis sẽ bị bác bỏ (sai). Khi Null Hypothesis sai thì Alternative Hypothesis sẽ đúng và ngược lại
Đối với bài toán tung đồng xu ta thu được xác suất 6 mặt sấp là p-value=1.56% <5% (alpha) kết luận Null Hypothesis cũng bị bác bỏ.
Có bao nhiêu loại Kiểm Định Giả Thuyết?
Trong Hypothesis Testing, chúng ta có hai loại chính:
1. Kiểm định tham số (Parametric Hypothesis Test)
Đây áp dụng cho biến định lượng liên tục, trong đó dữ liệu được biểu diễn bằng các giá trị số thực. Giả định quy luật phân phối dựa trên phân phối chuẩn hoặc xấp xỉ phân phối chuẩn. Loại kiểm định này tập trung vào các giả thuyết liên quan đến tham số mẫu, tham số tổng thể và thông tin về tổng thể được biết từ tập dữ liệu.
2. Kiểm định phi tham số (Non-parametric Hypothesis Test)
Đây dành cho biến định tính (định danh, thứ bậc) hoặc dữ liệu định lượng có phân phối không rõ ràng hoặc không phải là phân phối chuẩn. Loại kiểm định này không giới hạn bởi bất kỳ giả định về quy luật phân phối nào và không gắn với bất kỳ tham số nào của tổng thể.Thông tin về tổng thể nghiên cứu không được xác định rõ từ tập dữ liệu.
Vậy là bạn đã có được những kiến thức cơ bản về Hypothesis Testing - hay Kiểm Định Giả Thuyết. Nếu bạn đang muốn nghiên cứu chuyên sâu vào ngành Dữ Liệu mà chưa biết bắt đầu từ đâu thì hãy tham khảo các khóa học dữ liệu của 200Lab nhé.
Cũng đừng quên tham khảo trang Blog của 200Lab để đúc kết ch bản thân những bài học hay về Dữ Liệu, rút ngắn khoảng cách đến mục tiêu trở thành Data Analyst chuyên nghiệp.
Một vài bài viết bạn sẽ thích:
Review khóa học Data Analyst Bootcamp của 200Lab: Học viên nói gì?
Trực quan hóa Dữ liệu hiệu quả với 5 mẹo vặt hữu ích
6 chứng chỉ Phân Tích Dữ Liệu uy tín bạn cần biết
Master Data là gì? Vì sao Dữ Liệu Chủ lại quan trọng với doanh nghiệp?
So sánh Data Scientist, Data Engineer và Data Analyst
Bài viết liên quan
Database (Cơ sở dữ liệu) là gì? Những loại Database phổ biến nhất hiện nay
Sep 01, 2024 • 11 min read
Python là gì? Những đặc điểm nổi bật và Ứng dụng của Python
Aug 28, 2024 • 14 min read
Ứng dụng Hypothesis Testing - Kiểm định giả thuyết trong Y học
Jul 18, 2024 • 8 min read
Google Colab là gì? Hướng dẫn sử dụng Google Colab cho người mới
Jul 02, 2024 • 10 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí - Phần 2
Jun 24, 2024 • 6 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí- Phần 1
Jun 24, 2024 • 11 min read