, May 25, 2022

0 kết quả được tìm thấy

Kiến thức cơ bản về Thống kê cho người mới

  • Đăng bởi  Nga Vu
  •  Apr 22, 2022

  •   8 min reads
Kiến thức cơ bản về Thống kê cho người mới

Nếu bạn là một người hoàn toàn mới, bạn đang thắc mắc Thống kê (Statistics) là gì, các khái niệm xung quanh nó thì bạn đến đúng nơi rồi đấy. Bài viết này sẽ cho bạn một cái nhìn tổng quát nhất về Thống kê cũng như những khái niệm xung quanh lĩnh vực này. Lưu ý là bạn không cần quan tâm đến các kiến thức nền cao siêu về Toán đâu. Nào chúng ta hãy cùng bắt đầu khám phá trong bài viết này nhé!

1. Định nghĩa về Thống kê:

Khi nói về Statistics thì điều gì sẽ xuất hiện trong suy nghĩ của bạn đầu tiên ? Đối với hầu hết mọi người, nó nói đến các sự kiện, dữ liệu số học như số liệu về tỉ lệ thất nghiệp, giá nông sản, số lượng các kết hôn và ly hôn, ... Dưới đây là 2 định nghĩa phổ biến của Thống kê:

  • Những dữ kiện hay dữ liệu, xuất hiện dưới dạng số(numerical) hoặc không phải dạng số (nonnumerical), được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó.
  • Khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số.

Nhiệm vụ của các nhà thống kê (statistician) là phân tích dữ liệu nhằm mục đích tổng quát hóa (generalization) và đưa ra các kết luận. Ví dụ :Một nhà phân tích chính trị (political analyst) có thể sử dụng một phần dữ liệu từ bỏ phiếu của người dân để dự đoán xem ai là người có khả năng đắt cử mà không cần phải có toàn bộ dữ liệu.

Theo mình thì các bạn đừng nên dịch từ Generalization ra tiếng việt, bạn có thể hiểu nó là hành vi đưa ra một nhập định, kết luận cho đại diện cho toàn bộ tập dữ liệu (population) từ những dữ liệu mẫu được thu thập (sample), vì trong nhiều trường hợp thu thập toàn bộ dữ liệu cần thiết là việc không khả thi và tốn kém. Nếu phải bắt buộc dịch mình sẽ dùng từ Khái quát hóa.

2. Các loại Thống kê:

Statistics được chia làm 2 loại chính: Descriptive Statistics (Thống kê mô tả) và Inferential Statistics (Thống kê suy luận)

Descriptive statistics consists of methods for organizing and summarizing information.


Thống kê mô tả bao gồm việc xây dựng đồ thị, bảng số liệu và tính toán các chỉ sốmô tả (descriptive measures) như: trung bình (mean), độ biến thiên (variation), bách phân vị (percentiles).

Trước khi tìm hiểu về Inferential Statistics thì chúng ta sẽ đi qua khái niệm về Population và Sample, Census trước, chắc là bạn đã nghe 3 từ này ở đâu đó rồi đúng không nào

Population: The collection of all individuals or items under consideration in a statistical study.
Sample: That part of the population from which information is obtained.

Population là toàn bộ phần tử hay đối  tượng được cho là có mặt trong nghiên cứu của bạn không phải dịch ra là dân số đâu nhé, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset). Ví dụ sau đây sẽ giúp bạn hiểu rõ 2 khái niệm này

Population and Sample

Giả sử bạn đang thực hiện nghiên tiền bầu cử, thì việc phỏng vấn toàn bộ người trong độ tuổi đi bầu (Population) là bất khả thi, mất rất nhiều thời gian và rất đắt đỏ. Nên thay vào đó chúng ta sẽ chọn ra khoảng vài nghìn cử tri (Sample) để thực hiện lấy ý kiến . Từ tập dữ liệu Sample này các nhà thống kê sẽ thực hiện Thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ người trong độ tuổi đi bầu hay Population đấy các bạn.

Inferential statistics consists of methods for drawing and measuring the reliability of conclusions about a population based on information obtained from a sample of the population.

Thống kê mô tả bao gồm các phương pháp nhằm rút ra và đo lường mức độ tin cậy của các kết luận về toàn bộ tập dữ liệu Population dựa trên tập dữ liệu mẫu Sample thu được.

Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau. Bạn gần như phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận. Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp. Nó giống như việc thăm khám, chẩn đoán bệnh xong thì mới cho thuốc được vậy.

3. Phân loại các nghiên cứu Thống kê:

Nếu như mục đích của nghiên cứu là kiếm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữ liệu thôi thì đây là nghien cứu thiên hướng mô tả (Descriptive Statistics). Các Reports và Dashboards mà các bạn Data Analyst xây dựng cho công ty là một ví dụ

Đây là một ví dụ cho Thống kê mô tả vì nó chỉ là một bảng tóm tắt kết quả mà thôi, không có bất kì suy luận nào.

Kết quả bỏ phiếu tổng thống mỹ năm 1948

Tuy nhiên nếu như dữ liệu thu thập được là một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận

Một nhóm nghiên cứu đã tiến hành thí nghiệm về tốc độ giữa báo và sư tử bằng cách đo thời gian hoàn thành 1km của 20 con báo và 20 con sư tử, kết luận cho thấy báo chạy nhanh gấp đôi sư tử.

Đây là một nghiên cứu thống kê suy luận vì thứ nhất chúng ta dùng tập mẫu 20 con báo và 20 con sư tử (Sample) để đưa ra kết luận về toàn bộ cá thể báo, sư tử (Population), rõ ràng việc lấy mẫu toàn bộ sư tử và báo là bất khả thi, thứ hai sau khi thí nghiệm chúng ta đã đưa ra kết luận mang tính suy luận về tốc độ của 2 loài này.

4. Quá trình phát triển của Thống kê:

Theo lịch sử, thống kê mô tả có trước thống kê suy luận, điều tra dân số đã có trước đây rất lâu từ thời La Mã, qua nhiều thế kỉ những ghi chép về các số liệu sinh, tử, hôn nhân, thuế suất dẫn đến sự phát triển tự nhiên của thống kê mô tả.

Trong khi đó thống kê suy luận chỉ mới phát triển gần đây, bước tiến lớn nhất bắt đầu từ nghiên cứu của Karl Pearson (1857–1936) và Ronald Fisher (1890–1962) đã xuất bản những phát hiện của họ vào những năm đầu thế kỉ XX. Sau đó thống kê suy luận đã được áp dụng trong hầu hết các lĩnh vực của cuộc sống.

Các hiểu biết về thống kê sẽ giúp bạn nhận định xem những điều bạn đọc trên báo chí hay Internet có chính xác hay không. Như ví dụ ở trên nhóm nghiên cứu sinh thực nghiệm trên 40 sư tử và báo để đưa ra kết luận về vài chục ngàn cá thể báo, sư tử trên thế giới có chính xác hay không ?

5. Observational Studies vs Designed Experiments:

Bên cạnh việc phân loại các nghiên cứu thuộc thống kê mô tả hay suy luận chúng ta còn phải phân biệt chúng là Nghiên cứu quan sát hay Thí nghiệm được thiết kế. Trong nghiên cứu quan sát các nhà nghiên cứu chỉ cần quan sát các đặc điểm và ghi nhận số liệu đo lường của tập Sample. Trong Designed Experiment các nhà nghiên cứu sẽ thực hiện các liệu pháp (treatment) và kiểm soát đối tượng thí nghiệm (có tác động lên tập mẫu đó các bạn) sau đó mới ghi lại các đặc điểm và số liệu đo lường.

Observational Study chỉ cho chúng ta thấy được mối liên kết (association) trong khi Designed Experiment lại cho chúng ta thấy được mối quan hệ nguyên nhân, kết quả, mình sẽ đưa ra một vài ví dụ cho bạn dễ hiểu hơn nhé

  • Observational Study: Các nhà nghiên cứu muốn xem xét giả thuyết học thêm giờ buổi tối có khiến trẻ có thành tích tốt hơn hay không ? Họ đã lấy ý kiến trên 100 trẻ và cho kết quả là ... Đây là nghiên cứu quan sát vì người thực hiện không tác động vào đối tượng nghiên cứu
  • Designed Experiment: Các nhà nghiên cứu muốn kiểm tra một giả thiết là giảm độ sáng màn hình giúp tăng tuổi thọ của pin, họ đã tập hợp 30 cái laptop lại là, 15 trong số đó hạ độ sáng màn hình xuống mức 3, 15 cái kia giữ ở cài đặt mặc định, ... Rõ ràng họ đã tác động vào vật thể quan sát và điều chỉnh nó (tăng giảm độ sáng màn hình) nên đây là một nghiên cứu được thiết kế.

Tham khảo:  Introductory Statistics (2017) - Pearson

Bài viết liên quan

Thống kê mô tả - Descriptive Statistics - Phần 2

Trong phần này chúng ta sẽ tìm hiểu thống kê mô tả Descriptive Statistics qua khái niệm Measures of Central Tendency và Measures of Spread...

Thống kê mô tả - Descriptive Statistics - Phần 2
Thống kê mô tả - Descriptive Statistics - Phần 1

Cơ bản về thống kê chia ra làm 2 nhánh là thống kê mô tả (Descriptive Statistics) và thống kê suy luận (Inferential Statistics)...

Thống kê mô tả - Descriptive Statistics - Phần 1
Các kỹ thuật lấy mẫu trong Thống kê

Trong bài này mình sẽ liệt kê khái niệm về các phương pháp lấy mẫu hiện có, việc chọn mẫu sẽ ảnh hưởng trực tiếp đến kết quả phân tích và những suy luận của bạn...

Các kỹ thuật lấy mẫu trong Thống kê
Sự khác biệt giữa Data Analytics và Data Analysis

Nếu bạn đang thắc mắc sự khác biệt giữa Data Analysis và Data Analytics là gì ? Vì dịch ra tiếng việt chúng đều có ý nghĩa là Phân tích dữ liệu. Ngữ cảnh sử dụng của chúng có khác nhau không ? Thì bài viết này hoàn toàn phù hợp với bạn rồi đấy. Bây giờ chúng ta cùng đi vào nội dung thôi nào....

Sự khác biệt giữa Data Analytics và Data Analysis
Tìm hiểu Naive Bayes Classification - Phần 1

Bài viết này chúng ta sẽ cùng nhau tìm hiểu Supervied Learning qua các ví dụ đơn giản, dễ hiểu nhưng rất thực tế...

Tìm hiểu Naive Bayes Classification - Phần 1
You've successfully subscribed to 200Lab Blog
Great! Next, complete checkout for full access to 200Lab Blog
Xin chào mừng bạn đã quay trở lại
OK! Tài khoản của bạn đã kích hoạt thành công.
Success! Your billing info is updated.
Billing info update failed.
Your link has expired.