Mình chắc chắn bạn đã vô thức nhìn thấy và sử dụng dữ liệu trong cuộc sống hàng ngày của mình, chỉ có điều bạn không biết chúng gọi là dữ liệu mà thôi, trong bài viết hôm nay chúng ta sẽ cùng tìm hiểu về khái niệm này nhé
1. Dữ liệu là gì?
Dữ liệu là tập hợp thông tin được thu thập bằng quan sát, đo lường, nghiên cứu hoặc phân tích. Chúng có thể bao gồm các sự kiện, con số, tên, số liệu hoặc thậm chí mô tả sự vật. Dữ liệu được tổ chức dưới dạng đồ thị, biểu đồ hoặc bảng. Các nhà khoa học dữ liệu, phân tích viên sẽ thực hiện khai thác dữ liệu và với sự trợ giúp của dữ liệu đó sẽ giúp doanh nghiệp, tổ chức khám phá ra những insight thú vị, mà trước nay họ chưa bao giờ nghĩ đến.
Chắc hẳn bạn đã từng xem dự báo thời tiết trên các kênh tin tức. Họ liệt kê nhiệt độ tối thiểu, nhiệt độ tối đa, dự đoán và đo lượng mưa. Biểu diễn dạng bảng được chỉ ra dưới đây.
Thành phố | Nhiệt độ cao nhất | Nhiệt độ thấp nhất | Khả năng có mưa |
---|---|---|---|
Hà Nội | 30 | 25 | 20% |
Hồ Chí Minh | 37 | 29 | 50% |
Đà Nẵng | 35 | 28 | 40% |
Đây chính là một ví dụ về dữ liệu dạng thời tiết, chúng chỉ đơn giản ghi nhận lại thời tiết đo đạc được trong 1 ngày, sau khi đã thu thập được lượng dữ liệu đủ lớn bạn hoàn toàn có thể xây dựng các mô hình dự báo nhiệt độ, lượng mưa cho các ngày tiếp theo
Như bạn thấy đấy các sự vật và sự việc trong cuộc sống hằng ngày của chúng ta hầu như đều có thể được số hoá và lưu trữ lại, chúng gọi là dữ liệu.
2. Phân loại dữ liệu
Dữ liệu được chia làm 2 loại chính: Có cấu trúc và Không có cấu trúc
2.1 Dữ liệu có cấu trúc (structured data)
Dữ liệu có cấu trúc là loại dữ liệu có tổ chức rõ ràng, là các dạng dữ liệu mà các thành phần của chúng được tổ chức thành các bảng, với hàng và cột, các hàng và cột này có kiểu định dạng rõ ràng từ trước, ví dụ như Ngày sinh sẽ có định dạng ngày, Tên họ định dạng kiểu chuỗi và Tổng tiền có định dạng kiểu số thực.
Ví dụ: các bảng dữ liệu trong các hệ quản trị cơ sở dữ liệu, tập tin Excel hoặc các tài liệu XML có cấu trúc.
2.2 Dữ liệu không có cấu trúc (unstructured data)
Dữ liệu không có cấu trúc là loại dữ liệu không tuân theo các quy tắc và tiêu chuẩn cụ thể, không có cấu trúc rõ ràng hoặc không tổ chức theo bất kỳ cấu trúc nào.
Ví dụ: các tài liệu văn bản tự do, tài liệu HTML, email, tài liệu PDF, hình ảnh và video, file ghi âm, bài post trên Facebook có nhiều emoji, kí tự đặt biệt.
Việc sắp xếp, làm sạch và phân tích dữ liệu có cấu trúc sẽ dễ dàng hơn. Khi dữ liệu được định dạng nghiêm ngặt, đúng chuẩn, bạn sẽ không cần phải lo lắng về tính chính xác của dữ liệu đầu vào, từ đó kết quả phân tích sẽ được chính xác hơn nhiều
Dữ liệu phi cấu trúc không có các thuộc tính được xác định trước nên khó tìm kiếm và sắp xếp, nó yêu cầu các thuật toán phức tạp để tiền xử lý trước khi đưa vào phân tích, ví dụ biến đổi đoạn âm thanh, hình ảnh thành kiểu số trước khi đưa vào các mô hình dự đoán.
3. Kiểu dữ liệu
Như đã đề cập đến ở bên trên, dữ liệu mô phỏng lại sự vật, sự việc trong cuộc sống thực, nhưng ngoại trừ lưu trữ ra chúng còn được tổ chức, vì đề cho việc thống kê, tìm kiểm, kiểu soát dễ dàng, phân dữ liệu thành các kiểu riêng biệt là điều không thể thiếu.
Dữ liệu được phân thành các kiểu chính sau đây
- Nominal data: Dữ liệu danh nghĩa
- Ordinal data: Dữ liệu thứ tự
- Discrete data: Dữ liệu rời rạc
- Continuous data: Dữ liệu liên tục
3.1 Nominal data
Nominal data - Dữ liệu danh nghĩa là một loại dữ liệu phân loại, trong đó các đối tượng hoặc phân loại được phân thành các nhóm rõ ràng dựa trên các thuộc tính hoặc đặc điểm.Điểm nổi bật của dữ liệu danh nghĩa là các nhóm này không có thứ tự hoặc hạng số, có nghĩa là bạn không thể sắp xếp chúng.
Ví dụ về dữ liệu danh nghĩa bao gồm:
- Màu sắc: như đỏ, xanh, vàng.
- Giới tính: như nam, nữ, không tiết lộ.
- Quốc tịch: như Mỹ, Việt Nam, Pháp.
- Loại xe: như xe hơi, xe tải, xe máy.
3.2 Ordinal data
Ordinal data là một loại dữ liệu phân loại có tính thứ tự hoặc xếp hạng, trong đó các giá trị có thể được sắp xếp theo một thứ tự có nghĩa nhất định.
Ví dụ về dữ liệu thứ tự bao gồm:
- Mức độ hài lòng: như không hài lòng, trung lập, hài lòng.
- Cấp độ giáo dục: như trung học, cao đẳng, đại học.
- Cấp độ ưu tiên: như thấp, trung bình, cao.
- Đánh giá sản phẩm: như 1 sao, 2 sao, 3 sao, 4 sao, 5 sao.
3.3 Discrete data
Discrete data (dữ liệu rời rạc) là một loại dữ liệu định lượng được đặc trưng bởi việc có các giá trị cụ thể, riêng biệt, và thường là các số nguyên. Dữ liệu này không thể chia nhỏ thành các giá trị nhỏ hơn một cách có ý nghĩa, và nó thường được đếm được, không liên tục.
Các ví dụ về dữ liệu rời rạc bao gồm:
- Số lượng học sinh trong một lớp.
- Số lượng cuộc gọi đến một trung tâm dịch vụ khách hàng.
- Số bàn thắng mà một đội bóng đạt được trong một mùa giải.
- Số lần xuất hiện của một từ cụ thể trong một văn bản.
3.4 Continuous data
Continuous data (dữ liệu liên tục) là một loại dữ liệu định lượng có thể nhận bất kỳ giá trị nào trong một khoảng liên tục hoặc không giới hạn, bao gồm cả các số không nguyên và các giá trị vô cùng nhỏ. Dữ liệu này thể hiện các đặc điểm có thể đo lường được mà không bị gián đoạn giữa các giá trị và có thể được chia nhỏ thành đơn vị nhỏ hơn mà vẫn mang ý nghĩa.
Các ví dụ về dữ liệu liên tục bao gồm:
- Chiều cao hoặc cân nặng của một người.
- Thời gian hoàn thành một cuộc đua.
- Nhiệt độ trong một ngày.
- Lượng mưa tích lũy trong một tháng.
4. Kết luận
Hy vòng bài viết này giúp các bạn hiểu rõ hơn khái niệm về dữ liệu, chúng được ghi nhận lại vì mục đích phân tích và dự báo hoặc đơn giản là cải thiện chất lượng dịch vụ, cuộc sống của con người, tuy gây ra nhiều tranh cãi về quyền riêng tư nhưng cá nhân mình khi nhìn về khía cạnh tích cực đã giúp ích rất nhiều ấy chứ.
Các bài viết liên quan đến dữ liệu hay ho mà bạn có thể tham khảo thêm:
- Data Analyst là gì? Trở thành Data Analyst cần chuẩn bị gì?
- Large Language Model là gì ? Giải thích dễ hiểu
- Data Envelopment Analysis (DEA) là gì? Giải thích dễ hiểu
- Kinh nghiệm phỏng vấn Data Analyst: Những câu hỏi thường gặp
Bài viết liên quan
Database (Cơ sở dữ liệu) là gì? Những loại Database phổ biến nhất hiện nay
Sep 01, 2024 • 11 min read
Python là gì? Những đặc điểm nổi bật và Ứng dụng của Python
Aug 28, 2024 • 14 min read
Ứng dụng Hypothesis Testing - Kiểm định giả thuyết trong Y học
Jul 18, 2024 • 8 min read
Google Colab là gì? Hướng dẫn sử dụng Google Colab cho người mới
Jul 02, 2024 • 10 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí - Phần 2
Jun 24, 2024 • 6 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí- Phần 1
Jun 24, 2024 • 11 min read