, October 02, 2022

0 kết quả được tìm thấy

Dữ liệu là gì: các loại dữ liệu và cách phân tích dữ liệu?

  • Đăng bởi  Kieu Hoa
  •  Feb 27, 2022

  •   8 min reads
Dữ liệu là gì: các loại dữ liệu và cách phân tích dữ liệu?

Dữ liệu là gì?

Dữ liệu đề cập đến các phần thông tin riêng biệt, thường được định dạng và lưu trữ theo cách phù hợp với mục đích cụ thể. Dữ liệu có thể tồn tại ở nhiều dạng khác nhau: dưới dạng số liệu, văn bản được ghi trên giấy, dưới dạng bit hoặc byte được lưu trữ trong bộ nhớ của thiết bị điện tử hoặc dưới dạng dữ kiện trong tâm trí của một người. Tuy nhiên, kể từ khi khoa học máy tính ra đời vào giữa những năm 1900, dữ liệu thường đề cập đến thông tin được truyền hoặc lưu trữ dưới dạng điện tử.

Cách dữ liệu được lưu trữ

Máy tính biểu diễn dữ liệu, bao gồm video, hình ảnh, âm thanh và văn bản, theo hệ cơ số nhị phân (1 và 0). Bit là đơn vị dữ liệu nhỏ nhất và chỉ biểu thị một giá trị duy nhất. Một byte tương đương với 8 bits. Bộ nhớ và lưu trữ được đo bằng megabyte và gigabyte.

Các đơn vị đo lường dữ liệu tiếp tục phát triển khi lượng dữ liệu được thu thập và lưu trữ ngày càng tăng. Ví dụ, thuật ngữ tương đối mới "brontobyte" là một đơn vị dữ liệu đại diện cho một số lượng rất lớn các byte. Nó thường được so sánh với 1024 yottabytes hay 1027 bytes.

Dữ liệu có thể được lưu trữ dưới định dạng tệp, như trong các hệ thống máy tính lớn (mainframe system) sử dụng ISAM và VSAM. Các định dạng tệp khác được thiết kế để lưu trữ, chuyển đổi và xử lý dữ liệu gồm các giá trị được phân tách bằng dấu phẩy. Các định dạng này tiếp tục được sử dụng trên nhiều loại máy khác nhau.

Chuyên môn hóa cao hơn được phát triển như cơ sở dữ liệu, hệ quản trị cơ sở dữ liệu và sau đó phát sinh công nghệ relational database để tổ chức thông tin.

Các loại và cách sử dụng dữ liệu

Sự phát triển của lĩnh vực công nghệ, đặc biệt là điện thoại thông minh đã khiến văn bản, video và âm thanh được đưa vào dữ liệu cùng với nhật ký web. Hầu hết dữ liệu này không có cấu trúc.

Thuật ngữ Big Data được sử dụng trong định nghĩa dữ liệu để mô tả dữ liệu nằm trong phạm vi petabyte hoặc cao hơn. Big Data được mô tả bởi 5 đặc trưng sau: khối lượng dữ liệu (Volume), tốc độ (Velocity), giá trị (Value), độ tin cậy/chính xác (Veracity), đa dạng (Variety). Ngày nay, thương mại điện tử dựa trên web rất phổ biến, các mô hình kinh doanh dựa trên Big Data đã phát triển một cách rực rỡ và họ xem dữ liệu như một loại tài sản. Big Data mang đến rất nhiều lợi ích chẳng hạn như giảm bớt chi phí, nâng cao hiệu quả, nâng cao doanh số bán hàng, v.v.

Ý nghĩa của dữ liệu mở rộng ra ngoài quá trình xử lý dữ liệu trong các ứng dụng máy tính. Khi nói đến khoa học dữ liệu là gì, một cơ quan được tạo nên từ các dữ kiện được gọi là khoa học dữ liệu. Theo đó, lĩnh vực tài chính, nhân khẩu học, sức khỏe và tiếp thị cũng có các ý nghĩa khác nhau của dữ liệu, cuối cùng tạo nên các câu trả lời khác nhau cho "dữ liệu là gì".

Làm thế nào để phân tích dữ liệu?

Có hai cách để phân tích dữ liệu:

  • Phân tích dữ liệu trong nghiên cứu định tính
  • Phân tích dữ liệu trong nghiên cứu định lượng

1. Phân tích dữ liệu trong nghiên cứu định tính

Phân tích và nghiên cứu dữ liệu thông tin chủ quan (subjective information) tốt hơn thông tin số. Bởi vì thông tin bao gồm từ ngữ, sự mô tả, hình ảnh, đồ vật. Thu thập kiến thức từ dữ liệu vướng víu như vậy rất khó khăn; do đó, nó thường được sử dụng để nghiên cứu khám phá cũng như phân tích dữ liệu.

Tìm kiếm các mẫu trong dữ liệu định tính

Mặc dù có một số cách khác nhau để khám phá các mẫu trong dữ liệu in (printed data), nhưng chiến lược dựa trên từ ngữ là phương pháp được sử dụng rộng rãi và phụ thuộc nhất để nghiên cứu và phân tích dữ liệu. Đặc biệt, quy trình phân tích dữ liệu trong nghiên cứu định tính được thực hiện thủ công. Ở đây, các chuyên gia đọc thông tin có thể truy cập và tìm các từ đơn điệu hoặc thường được sử dụng.

2. Phân tích dữ liệu trong nghiên cứu định lượng

Chuẩn bị dữ liệu để phân tích

Giai đoạn đầu tiên trong nghiên cứu và phân tích dữ liệu được thực hiện để kiểm tra với mục tiêu rằng thông tin định danh (nominal information) có thể được thay đổi thành một thứ quan trọng. Việc chuẩn bị dữ liệu bao gồm những bước sau đây.

  1. Xác thực dữ liệu (Data Validation)
  2. Chỉnh sửa dữ liệu (Data Editing)
  3. Mã hóa dữ liệu (Data Coding)

Đối với nghiên cứu thống kê định lượng, việc phân tích mô tả thường đưa ra những con sốtối ưu. Tuy nhiên, phân tích không bao giờ đủ để chỉ ra lý do ẩn sau những con số này. Điều quan trọng là phải chọn ra kỹ thuật nào sẽ được sử dụng để nghiên cứu và phân tích dữ liệu phù hợp với khảo sát đánh giá của bạn và những câu chuyện mà chuyên gia cần kể.

Do đó, các doanh nghiệp muốn thành công phải có năng lực vượt trội để điều tra thông tin nghiên cứu phức tạp, tìm ra những sai lầm và điều chỉnh để phù hợp với nhu cầu của thị trường.

Một số cụm từ dữ liệu trong công nghệ


Dữ liệu đã trở thành yếu tố dẫn dắt trong nhiều cuộc trò chuyện chính thống về công nghệ. Những cải tiến mới liên tục đưa ra những bình luận về dữ liệu, cách chúng ta sử dụng và phân tích dữ liệu. Do đó, từ ngữ CNTT phổ biến bao gồm một số cụm từ mới và cũ:

Dữ liệu lớn (Big data): Một khối lượng dữ liệu có cấu trúc và phi cấu trúc quá lớn để xử lý bằng cách sử dụng các công nghệ phần mềm và cơ sở dữ liệu truyền thống.

Phân tích dữ liệu lớn (Big data analytics): Quá trình thu thập, sắp xếp và tổng hợp các bộ dữ liệu lớn để khám phá các mẫu hoặc thông tin hữu ích khác.

Trung tâm dữ liệu (Data center): Cơ sở hạ tầng vật lý hoặc cơ sở hạ tầng ảo được các doanh nghiệp sử dụng để chứa các hệ thống và thành phần máy tính, lưu trữ cũng như mạng cho nhu cầu CNTT của công ty.

Tính toàn vẹn của dữ liệu (Data integrity): Tính hợp lệ của dữ liệu, có thể bị ảnh hưởng bởi lỗi do con người hoặc lỗi truyền tải.

Công cụ khai thác dữ liệu (Data miner): Một ứng dụng phần mềm giám sát, phân tích các hoạt động của máy tính và người dùng, để thu thập thông tin.

Khai phá dữ liệu (Data mining): Một lớp ứng dụng cơ sở dữ liệu tìm kiếm các mẫu ẩn trong một nhóm dữ liệu có thể được sử dụng để dự đoán hành vi trong tương lai.

Kho dữ liệu (Data warehouse): Một hệ thống quản lý dữ liệu sử dụng dữ liệu từ nhiều nguồn để thúc đẩy hoạt động kinh doanh thông minh.

Cơ sở dữ liệu (Database): Tập hợp các điểm dữ liệu được tổ chức theo cách có thể điều động dễ dàng bởi hệ thống máy tính.

Siêu dữ liệu (Metadata): Thông tin tóm tắt về tập dữ liệu.

Dữ liệu thô (Raw data): Thông tin đã được thu thập nhưng chưa được định dạng hoặc phân tích.

Dữ liệu có cấu trúc (Structured data): Bất kỳ dữ liệu nào nằm trong trường cố định trong bản ghi hoặc tệp, bao gồm dữ liệu có trong cơ sở dữ liệu quan hệ và spreadsheets.

Dữ liệu không có cấu trúc (Unstructured data): Thông tin không nằm trong cơ sở dữ liệu hàng cột truyền thống như dữ liệu có cấu trúc.

Kết:

Ở phần trên, chúng ta đã cùng nhau tìm hiểu về khái niệm dữ liệu, cách dữ liệu được lưu trữ, các loại dữ liệu và cách sử dụng, 2 cách để phân tích dữ liệu, một số cụm từ phổ biến trong thế giới công nghệ. 200Lab hy vọng rằng bài viết này sẽ giúp bạn hiểu rõ và sâu hơn về những kiến thức cơ bản trong ngành dữ liệu. Đây chính là nền tảng để bạn tiến những bước tiếp theo trên con đường sự nghiệp của mình.

Nguồn: tổng hợp

Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!

Bài viết liên quan

Master data là gì? Sự khác nhau giữa Master data và Transaction data

Master data là tập hợp các định danh thống nhất và các thuộc tính mở rộng. Nó mô tả các thực thể cốt lõi của doanh nghiệp bao gồm khách hàng,.......

Master data là gì? Sự khác nhau giữa Master data và Transaction data
Danh mục các loại biểu đồ trong Data Visualization

Bạn có thể tìm thấy danh sách các loại biểu đồ, nó sẽ hoạt động như một hướng dẫn đầy hữu ích giúp bạn lựa chọn được biểu đồ phù hợp với nhu cầu của bản thân....

Danh mục các loại biểu đồ trong Data Visualization
Data Analysis with Excel: Analysis ToolPak

Bộ công cụ Analysis ToolPak trên Excel sẽ giúp bạn tiết kiệm thời gian và đơn giản hóa các bước phân tích dữ liệu tài chính, thống kê ....

Data Analysis with Excel: Analysis ToolPak
Data Analysis with Excel: Solver

Excel có một công cụ được gọi là solver cung cấp các lệnh và các tính năng tùy chỉnh để giải quyết các vấn đề quyết định....

Data Analysis with Excel: Solver
Data Analysis with Excel: What-If Analysis

What-If Analysis trong Excel cho phép bạn thử các giá trị (scenarios) khác nhau cho các công thức....

Data Analysis with Excel: What-If Analysis
You've successfully subscribed to 200Lab Blog
Great! Next, complete checkout for full access to 200Lab Blog
Xin chào mừng bạn đã quay trở lại
OK! Tài khoản của bạn đã kích hoạt thành công.
Success! Your billing info is updated.
Billing info update failed.
Your link has expired.