Thống Kê (Statistics) từng là “nỗi ám ảnh” đối với nhiều học sinh, sinh viên thuộc các khối Kinh Tế bởi lượng kiến thức lớn và bao gồm nhiều kỹ thuật phức tạp. Dù vậy, bạn không cần phải quá xuất sắc về Toán thì mới có thể thông thạo Statistics. Bài viết này sẽ cho bạn một cái nhìn tổng quát nhất về Thống kê cũng như những khái niệm xung quanh lĩnh vực này.
Lưu ý nè: Nếu bạn đang muốn phát triển theo hướng thành một Data Analyst (DA) thì không thể bỏ qua các kiến thức hữu ích về Thống Kê đâu nhé!
1. Thống Kê là gì? Tìm hiểu về Thống Kê cơ bản
Bạn hiểu gì về Thống kê? Khi nói về Thống Kê - Statistics - thì điều gì sẽ xuất hiện trong suy nghĩ của bạn đầu tiên?
Đối với hầu hết mọi người, Thống Kê liên quan đến chuỗi các sự kiện, dữ liệu số học như số liệu về tỉ lệ thất nghiệp, giá nông sản, số lượng các kết hôn và ly hôn,...
Dưới đây là 2 định nghĩa phổ biến của Thống Kê:
Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng số(numerical) hoặc không phải dạng số (nonnumerical), được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó.
Thống kê là khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số.
Nhiệm vụ của các nhà thống kê (statistician) là phân tích dữ liệu nhằm mục đích tổng quát hóa (generalization) và đưa ra các kết luận.
Ví dụ :Một nhà phân tích chính trị (political analyst) có thể sử dụng một phần dữ liệu từ bỏ phiếu của người dân để dự đoán xem ai là người có khả năng đắt cử mà không cần phải có toàn bộ dữ liệu.
Theo mình thì các bạn đừng nên dịch từ Generalization ra tiếng việt, bạn có thể hiểu nó là hành vi đưa ra một nhận định, kết luận cho đại diện cho toàn bộ tập dữ liệu (population) từ những dữ liệu mẫu được thu thập (sample), vì trong nhiều trường hợp thu thập toàn bộ dữ liệu cần thiết là việc không khả thi và tốn kém.
Nếu phải bắt buộc dịch mình sẽ dùng từ Khái quát hóa.
2. Các ứng dụng Thống Kê trong kinh doanh
Có bao nhiêu loại Thống Kê? Ứng dụng Thống Kê trong kinh doanh như thế nào? Thống Kê được chia làm 2 loại chính: Descriptive Statistics (Thống kê mô tả) và Inferential Statistics (Thống kê suy luận)
Descriptive statistics consists of methods for organizing and summarizing information.
Thống kê mô tả bao gồm việc xây dựng đồ thị, bảng số liệu và tính toán các chỉ sốmô tả (descriptive measures) như: trung bình (mean), độ biến thiên (variation), bách phân vị (percentiles).
Trước khi tìm hiểu về Inferential Statistics thì chúng ta sẽ đi qua khái niệm về Population và Sample, Census trước, chắc là bạn đã nghe 3 từ này ở đâu đó rồi đúng không nào
Population: The collection of all individuals or items under consideration in a statistical study.
Sample: That part of the population from which information is obtained.
Population là toàn bộ phần tử hay đối tượng được cho là có mặt trong nghiên cứu của bạn không phải dịch ra là dân số đâu nhé, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset).
Ví dụ sau đây sẽ giúp bạn hiểu rõ về các khái niệm nêu trên:
Giả sử bạn đang thực hiện nghiên tiền bầu cử, thì việc phỏng vấn toàn bộ người trong độ tuổi đi bầu (Population) là bất khả thi, mất rất nhiều thời gian và rất đắt đỏ.
Nên thay vào đó chúng ta sẽ chọn ra khoảng vài nghìn cử tri (Sample) để thực hiện lấy ý kiến .
Từ tập dữ liệu Sample này các nhà thống kê sẽ thực hiện Thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ người trong độ tuổi đi bầu hay Population đấy các bạn.
Inferential statistics consists of methods for drawing and measuring the reliability of conclusions about a population based on information obtained from a sample of the population.
Thống kê mô tả bao gồm các phương pháp nhằm rút ra và đo lường mức độ tin cậy của các kết luận về toàn bộ tập dữ liệu Population dựa trên tập dữ liệu mẫu Sample thu được.
Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau.
Bạn gần như phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận.
Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp.
Nó giống như việc thăm khám, chẩn đoán bệnh xong thì mới cho thuốc được vậy.
3. Statistics cơ bản - Phân loại các nghiên cứu Thống Kê
Nếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữ liệu thôi thì đây là nghiên cứu thiên hướng mô tả (Descriptive Statistics).
Các Reports và Dashboards mà các bạn Data Analyst xây dựng cho công ty là một ví dụ.
Đây là một ví dụ cho Thống kê mô tả vì nó chỉ là một bảng tóm tắt kết quả mà thôi, không có bất kì suy luận nào.
Tuy nhiên nếu như dữ liệu thu thập được là một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận.
Một nhóm nghiên cứu đã tiến hành thí nghiệm về tốc độ giữa báo và sư tử bằng cách đo thời gian hoàn thành 1 km của 20 con báo và 20 con sư tử, kết luận cho thấy báo chạy nhanh gấp đôi sư tử.
Đây là một nghiên cứu thống kê suy luận vì thứ nhất chúng ta dùng tập mẫu 20 con báo và 20 con sư tử (Sample) để đưa ra kết luận về toàn bộ cá thể báo, sư tử (Population), rõ ràng việc lấy mẫu toàn bộ sư tử và báo là bất khả thi, thứ hai sau khi thí nghiệm chúng ta đã đưa ra kết luận mang tính suy luận về tốc độ của 2 loài này.
4. Quá trình phát triển của Thống kê
Theo lịch sử, thống kê mô tả có trước thống kê suy luận, điều tra dân số đã có trước đây rất lâu từ thời La Mã, qua nhiều thế kỉ những ghi chép về các số liệu sinh, tử, hôn nhân, thuế suất dẫn đến sự phát triển tự nhiên của thống kê mô tả.
Trong khi đó thống kê suy luận chỉ mới phát triển gần đây, bước tiến lớn nhất bắt đầu từ nghiên cứu của Karl Pearson (1857–1936) và Ronald Fisher (1890–1962) đã xuất bản những phát hiện của họ vào những năm đầu thế kỉ XX. Sau đó thống kê suy luận đã được áp dụng trong hầu hết các lĩnh vực của cuộc sống.
Các hiểu biết về thống kê sẽ giúp bạn nhận định xem những điều bạn đọc trên báo chí hay Internet có chính xác hay không.
Như ví dụ ở trên nhóm nghiên cứu sinh thực nghiệm trên 40 sư tử và báo để đưa ra kết luận về vài chục ngàn cá thể báo, sư tử trên thế giới có chính xác hay không ?
5. Observational Studies vs Designed Experiments
Bên cạnh việc phân loại các nghiên cứu thuộc thống kê mô tả hay suy luận chúng ta còn phải phân biệt chúng là Nghiên cứu quan sát hay Thí nghiệm được thiết kế.
Trong nghiên cứu quan sát các nhà nghiên cứu chỉ cần quan sát các đặc điểm và ghi nhận số liệu đo lường của tập Sample. Trong Designed Experiment các nhà nghiên cứu sẽ thực hiện các liệu pháp (treatment) và kiểm soát đối tượng thí nghiệm (có tác động lên tập mẫu đó các bạn) sau đó mới ghi lại các đặc điểm và số liệu đo lường.
Observational Study chỉ cho chúng ta thấy được mối liên kết (association) trong khi Designed Experiment lại cho chúng ta thấy được mối quan hệ nguyên nhân, kết quả, mình sẽ đưa ra một vài ví dụ cho bạn dễ hiểu hơn nhé
- Observational Study: Các nhà nghiên cứu muốn xem xét giả thuyết học thêm giờ buổi tối có khiến trẻ có thành tích tốt hơn hay không ? Họ đã lấy ý kiến trên 100 trẻ và cho kết quả là ... Đây là nghiên cứu quan sát vì người thực hiện không tác động vào đối tượng nghiên cứu
- Designed Experiment: Các nhà nghiên cứu muốn kiểm tra một giả thiết là giảm độ sáng màn hình giúp tăng tuổi thọ của pin, họ đã tập hợp 30 cái laptop lại là, 15 trong số đó hạ độ sáng màn hình xuống mức 3, 15 cái kia giữ ở cài đặt mặc định, ... Rõ ràng họ đã tác động vào vật thể quan sát và điều chỉnh nó (tăng giảm độ sáng màn hình) nên đây là một nghiên cứu được thiết kế.
Các phương pháp Thống Kê cơ bản
Thống kê là một lĩnh vực nghiên cứu rộng lớn và đa dạng, sử dụng nhiều phương pháp khác nhau trong lĩnh vực nghiên cứu khoa học. Các phương pháp thống kê cơ bản bao gồm:
- Thu thập và xử lý dữ liệu: Đây là giai đoạn ban đầu trong quá trình thống kê, gồm việc tập hợp dữ liệu từ nguồn đa dạng và tiến hành xử lý chúng để loại bỏ các giá trị ngoại lai hoặc thiếu sót.
- Điều tra chọn mẫu: Phương pháp này liên quan đến việc lựa chọn một mẫu ngẫu nhiên từ tổng thể, nhằm tạo ra một tập dữ liệu con đại diện cho toàn bộ tổng thể. Mục tiêu là thu thập thông tin về tổng thể mà không cần phải khảo sát toàn bộ.
- Nghiên cứu mối liên hệ giữa các hiện tượng: Phương pháp này nhằm tìm hiểu về sự tương quan giữa các biến số để xác định mối quan hệ giữa chúng.
- Dự đoán: Ở đây, chúng ta sử dụng các mô hình thống kê để tiến hành dự đoán giá trị của một biến số dựa trên thông tin đã biết về các biến số khác.
Mỗi phương pháp thống kê này đóng vai trò quan trọng trong việc nghiên cứu và hiểu sâu hơn về dữ liệu trong lĩnh vực khoa học.
(*) Bài viết này có tham khảo thông tin từ: Introductory Statistics (2017) - Pearson
Trở thành Chuyên Viên Phân Tích Dữ Liệu - hay Data Analys (DA) - là giấc mơ chung của nhiều bạn trẻ. Trong quá trình học tập thì Thống Kê là một kỹ năng hết sức cần thiết. Bạn có thể tham khảo thêm các khóa học dữ liệu trên 200Lab hay đọc thêm các bài viết hay trên trang Blog Dữ Liệu và Lập Trình của 200Lab nhé.
Giờ thì bắt đọc học thống kê thôi!
Một vài bài viết bạn sẽ thích:
Data Analyst là gì? Trở thành Data Analyst cần chuẩn bị gì?
Lộ trình học Python cho người mới bắt đầu cực hữu ích
Data Analysis trong Excel: Tổng hợp các kỹ thuật quan trọng
Cohort Analysis là gì? Ứng dụng phân tích Customer Retention
Phân tích dữ liệu trong Excel: Hướng dẫn & cập nhật mới nhất
Bài viết liên quan
Database (Cơ sở dữ liệu) là gì? Những loại Database phổ biến nhất hiện nay
Sep 01, 2024 • 11 min read
Python là gì? Những đặc điểm nổi bật và Ứng dụng của Python
Aug 28, 2024 • 14 min read
Ứng dụng Hypothesis Testing - Kiểm định giả thuyết trong Y học
Jul 18, 2024 • 8 min read
Google Colab là gì? Hướng dẫn sử dụng Google Colab cho người mới
Jul 02, 2024 • 10 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí - Phần 2
Jun 24, 2024 • 6 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí- Phần 1
Jun 24, 2024 • 11 min read