Trực quan hóa dữ liệu - hay Data Visualization - đòi hỏi sự hiểu biết nhất định với vô vàn các loại chart, graphs, diagram, map,... Những loại biểu đồ nào hữu ích và được sử dụng thường xuyên nhất trong Trực Quan Hóa Dữ Liệu? Bạn chỉ mới nghe qua tên vẫn chưa hình dung ra được chúng là gì, có chức năng và hình dạng ra sao?
Xin chúc mừng, bạn đã đến đúng nơi rồi đấy! Bài viết này của 200Lab Blog là nơi bạn có thể tìm thấy danh sách các loại biểu đồ thông dụng được phân loại theo thứ tự bảng chữ cái - kèm theo định nghĩa và hướng dẫn ứng dụng cụ thể. Đây là hướng dẫn đầy hữu ích giúp bạn lựa chọn được biểu đồ phù hợp với nhu cầu phân tích dữ liệu.
À nè, nếu bạn vẫn chưa nắm kỹ định nghĩa cũng như các chức năng của Data Visualization là gì thì bạn có thể đọc qua bài viết dưới đây nhé:
Các loại biểu đồ hữu ích trong Data Visualization
Các định nghĩa và ví dụ sẽ được viết theo thứ tự bảng chữ cái, chúng ta cùng bắt đầu với chữ A trước nhé.
A
1. Area graph - Biểu đồ vùng
Định nghĩa | Minh họa |
Là sự điều chỉnh của biểu đồ đường trong đó khu vực dưới đường được điền vào để nhấn mạnh tầm quan trọng của nó. Màu tô cho khu vực dưới mỗi dòng hơi trong suốt để có thể thấy được các khu vực chồng lấp. Giống như Line Graphs, Area chart được sử dụng để hiển thị sự phát triển của các giá trị định lượng trong một khoảng thời gian. Chúng được sử dụng phổ biến để hiển thị các xu hướng, thay vì truyền tải các giá trị cụ thể. |
2. Arc diagram
Định nghĩa | Minh họa |
Là biểu đồ biểu diễn two-dimensional Network Diagrams. Trong Arc diagram, các nút (nodes) được đặt dọc theo một đường thẳng (trục một chiều) và các arcs được sử dụng để nối các nodes lại với nhau.Độ dày của mỗi đường cung được sử dụng để biểu diễn tần số giữa nút đầu và nút cuối. |
B
3. Bar chart
Định nghĩa | Minh họa |
Được biết đến là Bar Graph hay Column Graph, đây là một trong những biểu đồ dễ đọc nhất, giúp so sánh các dữ liệu phân loại. Một trục chứa các danh mục, trục còn lại chứa các giá trị. |
4. Box plot
Định nghĩa | Minh họa |
Là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max). Mặc dù Box plot còn khá mới so với Histogram và Density plot, nhưng chúng có lợi thế là chiếm ít không gian hơn. Điều này rất hữu ích khi so sánh phân phối giữa nhiều nhóm hoặc datasets. |
5. Brainstorm - Sơ đồ tư duy
Định nghĩa | Minh họa |
Được gọi là sơ đồ tư duy (mind map). Brainstorm là sơ đồ được sử dụng để thể hiện các ý tưởng, từ ngữ, hình ảnh và các khái niệm liên kết lại với nhau. Bên cạnh đó, Brainstorm cùng là một công cụ để hình thành việc lên ý tưởng, tìm kiếm sự liên kết, phân loại ý tưởng, tổ chức thông tin,... Brainstorm thường được sử dụng ở giai đoạn đầu của dự án và hoạt động như một hình thức ghi chú. Chúng cũng hữu ích trong việc cộng tác và xây dựng tinh thần nhóm. Bạn có thể tạo Brainstorm theo các bước dưới đây: 1. Ở giữa trang, bạn hãy viết tiêu đề của dự án và gói gọn chúng lại trong một hình tròn hoặc một đám mây. 2. Lúc này, bạn hãy nghĩ đến các từ khóa chính có liên quan đến chủ đề. 3. Sau mỗi từ khóa chính, bạn hãy bắt đầu triển khai các ý, bạn có thể vẽ nhiều nhánh khác nhau tượng trưng cho các ý đó. 4. Bạn có thể lặp lại theo bước 3 cho các từ khóa phụ. |
6. Bubble chart
Định nghĩa | Minh họa |
Là một biến thể của biểu đồ phân tán, trong đó điểm dữ liệu được thay thế bằng bong bóng và một kích thước bổ sung của dữ liệu được thể hiện bằng kích cỡ bong bóng. Biểu đồ bong bóng sẽ có 3 giá trị là giá trị x, giá trị y và giá trị z (kích cỡ). Bubble charts được sử dụng để so sánh và hiển thị mối quan hệ giữa các vòng tròn được phân loại, bằng cách sử dụng vị trí và tỷ lệ. Ngoài ra, chúng còn được sử dụng để phân tích các mẫu và thể hiện các mối tương quan. Nhưng Bubble charts có nhược điểm là kích thước dữ kiện sẽ bị hạn chế, vì nếu có quá nhiều bong bóng sẽ làm cho biểu đồ trở nên khó đọc hơn. |
7. Bubble map
Định nghĩa | Minh họa |
Các vòng tròn trên bản đồ thể hiện giá trị của nó trong tập dữ liệu, chúng được sử dụng để so sánh tỷ lệ giữa các khu vực. Tuy nhiên, nếu các vòng tròn bong bóng quá lớn chúng có thể bị chồng lên nhau và chồng lên các vùng khác trên bản đồ. |
8. Bullet graph
Định nghĩa | Minh họa |
Được sử dụng để hiển thị dữ liệu hiệu suất, Bullet Graph có chức năng hoạt động như Bar chart, tuy nhiên chúng có thêm các yếu tố hình ảnh bổ sung để phù hợp với nhiều ngữ cảnh hơn. Bullet Graph được phát triển bởi Stephen Few, được phát triển để thay thế đồng hồ đo trên dashboard. Hình bên dưới hiển thị biểu đồ Bullet Chart đã được tạo, mỗi bóng màu (ba màu xám trong ví dụ trên) được sử dụng để chỉ định xếp hạng phạm vi hiệu suất như kém, tốt và xuất sắc. |
C
9. Card
Định nghĩa | Minh họa |
Để hiển thị và theo dõi chỉ số KPI trong trang tổng quan hoặc bản trình bày. |
10. Chord diagram
Định nghĩa | Minh họa |
Để trình bày các mối quan hệ hoặc luồng có trọng số giữa các nút, hữu ích khi làm nổi bật các luồng chi phối. Các nodes được sắp xếp dọc theo vòng tròn và chúng được nối lại với nhau thông qua việc sử dụng các cung hoặc đường cong Bezier. Bên cạnh đó, màu sắc được sử dụng để nhóm dữ liệu thành các danh mục khác nhau, hỗ trợ cho việc so sánh và phân biệt các nhóm. |
11. Column chart - Biểu đồ cột
Định nghĩa | Minh họa |
Được sử dụng để so sánh giữa các danh mục khác nhau hoặc có thể so sánh một danh mục theo thời gian. Bạn có thể sử dụng biểu đồ này để xem doanh thu trên mỗi trang hoặc khách hàng theo ngày. |
12. Connected scatterplot
Định nghĩa | Minh họa |
Là sự kết hợp giữa biểu đồ phân tán (Scatter plot chart) và biểu đồ đường (Line chart), các dấu chấm phân tán sẽ được kết nối lại với nhau tạo thành một đường thẳng. |
D
13. Donut pie chart
Định nghĩa | Minh họa |
Là một biến thể của biểu đồ hình tròn (Pie chart), dạng này không khác gì biểu đồ tròn ngoại trừ phần rỗng bên trong. Donut pie chart giúp người đọc tập trung nhiều hơn vào chiều dài của các cung tròn thay vì chỉ tập trung vào so sánh tỷ lệ giữa các lát cắt như biểu đồ tròn. Ngoài ra, donut pie chart sẽ tiết kiệm không gian hơn biểu đồ tròn vì phần trống bên trong có thể được sử dụng để hiển thị thông tin bên trong nó. |
14. Density plot - Biểu đồ mật độ
Định nghĩa | Minh họa |
Hay còn gọi là biểu đồ mật độ, chúng tương đối giống với biểu đồ chữ nhật, khi có một đường cong trơn nối liền các đỉnh trong biểu đồ chữ nhật với nhau. Mỗi một bộ dữ liệu đều có một đặt trưng riêng của nó. |
G
15. Gauge chart
Định nghĩa | Minh họa |
Là biểu đồ có một cung tròn và hiển thị một giá trị duy nhất đo lường giá trị so với mục tiêu hoặc chỉ số hiệu suất chính (KPI). Vạch kim trong biểu đồ thể hiện mục tiêu hoặc giá trị của mục tiêu được đề ra. |
H
16. Heat map - Biểu đồ nhiệt
Định nghĩa | Minh họa |
Là một công cụ thể hiện dữ liệu trực quan hành vi của người dùng truy cập vào website thông qua màu sắc. Màu nóng là nơi được tương tác nhiều nhất và màu lạnh là nơi tương tác ít nhất. Heat maps rất hữu ích trong việc kiểm tra chéo dữ liệu thông qua việc đặt các biến vào hàng, cột và tô màu các ô trong bảng. Bên cạnh đó, chúng cũng rất tốt trong việc hiển thị phương sai trên nhiều biến, hiển thị bất kỳ biến nào tương tự với nhau để phát hiện xem có tồn tại bất kỳ mối tương quan nào giữa chúng hay không. Heat maps là biểu đồ phù hợp để có cái nhìn tổng quan về dữ liệu số do sự phụ thuộc của chúng vào màu sắc để giao tiếp các giá trị. |
17. Histogram
Định nghĩa | Minh họa |
Là một dạng biểu đồ thể hiện tần suất dạng cột, hiển thị sự phân bố của một biến. Trục x thể hiện phạm vi và trục y biểu thị tần số. Histograms giúp đưa ra các ước tính về vị trí các giá trị tập trung, các điểm cực trị là gì, có khoảng trống hoặc giá trị bất thường nào không. Bên cạnh đó, chúng cũng hữu ích để đưa ra cái nhìn sơ bộ về phân phối xác suất. |
L
18. Line chart - Biểu đồ đường
Định nghĩa | Minh họa |
Biểu đồ minh họa những thay đổi theo thời gian. Trục x thường là một khoảng thời gian, trục y là số lượng. Các giá trị âm có thể được hiển thị bên dưới trục x. Line chart thường được sử dụng thường xuyên để hiển thị xu hướng và phân tích dữ liệu đã thay đổi như thế nào theo thời gian. Độ dốc của biểu đồ hướng lên cho biết nơi giá trị đã tăng và độ dốc hướng xuống cho biết nơi giá trị đã giảm. Tuy nhiên, tránh sử dụng nhiều hơn 3-4 dòng trên mỗi biểu đồ, vì điều này làm cho biểu đồ trở nên lộn xộn và khó đọc. |
N
19. Network diagram
Định nghĩa | Minh họa |
Còn được gọi là Network Graph, Network Map, Node-Link Diagram. Chúng cho thấy mọi thứ được liên kết với nhau thông qua việc sử dụng nodes và các cạnh liên kết với nhau. Nó minh họa các mục khác nhau có mối quan hệ với nhau như thế nào. Thông thường, các nút sẽ được vẽ dưới dạng các chấm nhỏ, vòng tròn hoặc cũng có thể sử dụng các biểu tượng. Các liên kết thường được hiển thị dưới dạng các đường nối giữa các nodes. |
P
20. Pie chart
Định nghĩa | Minh họa |
Là một trong những biểu đồ phổ biến nhất thể hiện một phần trong toàn bộ dữ liệu. Pie chart thường được sử dụng theo tỷ lệ và tỷ lệ phần trăm giữa các danh mục, bằng cách chia một vòng tròn thành các phân đoạn theo tỷ lệ. Mỗi chiều dài cung tròn đại diện cho tỷ lệ của từng danh mục, tổng vòng tròn đại diện cho tổng dữ liệu, bằng 100%. Tuy nhiên, nhược điểm của pie chart là: Chúng không thể hiển thị nhiều hơn một vài giá trị, vì khi số lượng giá trị được hiển thị tăng lên, kích thước của mỗi phân đoạn trở nên nhỏ hơn. Điều này khiến chúng không phù hợp với lượng lớn dữ liệu. |
S
21. Sankey Diagram
Định nghĩa | Minh họa |
Là một loại sơ đồ dòng trong đó chiều rộng của các mũi tên tỷ lệ với tốc độ dòng chảy. Dòng chảy này có thể là bất kỳ đại lượng nào có thể đo lường được, vì vậy mũi tên càng lớn thì lượng dòng chảy càng lớn. Màu sắc được sử dụng để chia sơ đồ thành các loại khác nhau hoặc để hiển thị sự chuyển đổi từ trạng thái này sang trạng thái khác của quá trình. |
22. Scatter plot chart
Định nghĩa | Minh họa |
Là biểu đồ thường được sử dụng khi cần quan sát mối quan hệ giữa hai biến. Đây được xem là biểu đồ khá hữu ích khi nó nhanh chóng xác định mối tương quan tiềm năng giữa các điểm dữ liệu. Biểu đồ phân tán thường được sử dụng để thể hiện các mối quan hệ nguyên nhân - kết quả. Mối tương quan này được biểu diễn dưới dạng các dấu chấm tròn đại diện cho 2 biến, với một biến phụ thuộc chạy cố định trên trục tung và một biến độc lập chạy cố định dựa vào trục hoành. Có nhiều loại tương quan khác nhau như: dương (các giá trị tăng cùng nhau), âm (giá trị này tăng khi giá trị kia giảm), null (không tương quan), tuyến tính, hàm mũ,... |
23. Spline chart
Định nghĩa | Minh họa |
Là phiên bản của biểu đồ đường, chúng khác nhau ở chỗ, dữ liệu được kết nối với các dấu chấm tạo thành đường cong để tính ra các giá trị bị thiếu, trái ngược với biểu đồ đường. |
24. Stacked area chart
Định nghĩa | Minh họa |
Là một dạng biểu đồ phức hợp của dạng biểu đồ vùng, chúng hoạt động giống Area graphs. Stacked area chart được sử dụng để truyền đạt các số nguyên, vì chúng không hoạt động với các giá trị âm. Chúng hữu ích trong việc so sánh nhiều biến đã thay đổi như thế nào trong một khoảng thời gian. |
25. Stacked column chart
Định nghĩa | Minh họa |
Biểu thị các giá trị ở dạng cột xếp chồng. Dùng biểu đồ này khi có nhiều chuỗi dữ liệu và muốn nhấn mạnh tổng số. Để so sánh các danh mục con trong dữ liệu phân loại và cũng có thể được sử dụng để so sánh tỷ lệ phần trăm. |
T
26. Treemap chart
Định nghĩa | Minh họa |
Biểu đồ đặc biệt hữu dụng khi bạn muốn so sánh tỷ lệ các phần dữ liệu trong cùng cấp bậc. Tuy vậy, biểu đồ này không thể hiện được rõ ràng các cấp bậc từ cao nhất xuống thấp nhất. Treemap charts hiển thị số lượng cho từng danh mục thông qua kích thước. Mỗi danh mục được chỉ định một khu vực hình chữ nhật với các hình chữ nhật danh mục con của chúng. |
V
27. Violin plot
Định nghĩa | Minh họa |
Tương tự như biểu đồ nến. Được sử dụng để thể hiện sự so sánh của một phân phối thay đổi (hoặc phân phối mẫu) trên các "danh mục" khác nhau cùng với mật độ xác suất của nó. Các biểu đồ này bao gồm một điểm đánh dấu cho trung vị của dữ liệu và một nến hiển thị phạm vi liên phần tư, như trong các plot box tiêu chuẩn. Phủ trên plot box này là ước tính mật độ nhân. Giống như box plot, violin plot được sử dụng để thể hiện sự so sánh của một phân phối thay đổi (hoặc phân phối mẫu) trên các "danh mục" khác nhau. Một violin plot có nhiều thông tin hơn một plot box đơn thuần. Trên thực tế, trong khi biểu đồ nến chỉ hiển thị thống kê tóm tắt như phạm vi trung bình / trung vị và giữa các phần, thì biểu đồ violin hiển thị toàn bộ phân phối dữ liệu. |
W
28. World cloud chart
Định nghĩa | Minh họa |
Còn được biết đến với tên gọi Tag Cloud, được hiểu là một hình ảnh trực quan, thể hiện các từ phổ biến nhất xuất hiện trong văn bản. Được sử dụng để hình dung mối quan hệ giữa các từ khác nhau hoặc để nắm bắt xu hướng về các từ phổ biến nhất. Màu sắc được sử dụng trên Word Clouds chủ yếu mang tính thẩm mỹ, nhưng nó cũng có thể được sử dụng để phân loại các từ hoặc để hiển thị một biến dữ liệu khác. Thông thường, Word Clouds được sử dụng trên các trang web hoặc blog để mô tả việc sử dụng từ khóa hoặc thẻ. Word Clouds cũng có thể được sử dụng để so sánh hai phần khác nhau của văn bản với nhau. Mặc dù đơn giản và dễ hiểu, nhưng Word Clouds có một số nhược điểm như: Các từ dài được nhấn mạnh hơn các từ ngắn. Những từ có chữ cái có thể nhận được nhiều sự chú ý hơn. |
Nắm vững các loại biểu đồ giúp chúng ta truyền đạt thông tin hiệu quả, tóm tắt dữ liệu phức tạp, so sánh và phân tích, dự đoán xu hướng, và làm dữ liệu hấp dẫn hơn. Điều này quan trọng và ứng dụng rộng rãi trong nhiều lĩnh vực.
Hãy tận dụng các kiến thức về biểu đồ để tối ưu hóa quá trình trực quan hóa dữ liệu nhé. Đừng quên theo dõi trang Blog của 200Lab để học hỏi thêm nhiều thông tin hữu ích và tìm đọc các bài viết có liên quan nữa nhé!
Một số bài viết có thể bạn sẽ thích:
Thống kê là gì? Kiến thức thống kê cho người mới bắt đầu
Financial Analyst là gì? Vai trò, Kỹ năng và cơ hội nghề nghiệp
Lộ trình học Python cho người mới bắt đầu cực hữu ích
Data Analysis trong Excel: Tổng hợp các kỹ thuật quan trọng
Cohort Analysis là gì? Ứng dụng phân tích Customer Retention
Phân tích dữ liệu trong Excel: Hướng dẫn & cập nhật mới nhất
Master Data Management là gì? Tìm hiểu về Quản Lý Dữ Liệu Chủ
Pum
Life is short. Smile while you still have teeth :)
Bài viết liên quan
Database (Cơ sở dữ liệu) là gì? Những loại Database phổ biến nhất hiện nay
Sep 01, 2024 • 11 min read
Python là gì? Những đặc điểm nổi bật và Ứng dụng của Python
Aug 28, 2024 • 14 min read
Ứng dụng Hypothesis Testing - Kiểm định giả thuyết trong Y học
Jul 18, 2024 • 8 min read
Google Colab là gì? Hướng dẫn sử dụng Google Colab cho người mới
Jul 02, 2024 • 10 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí - Phần 2
Jun 24, 2024 • 6 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí- Phần 1
Jun 24, 2024 • 11 min read