Secondary data là gì? Phương pháp phân tích, nguồn và các ví dụ minh họa

10 Feb, 2022

Pum

Author

Các công cụ phổ biến được sử dụng để thu thập dữ liệu thứ cấp như: bot, thiết bị, thư viện,... Ưu và nhược điểm của dữ liệu thứ cấp...

Secondary data là gì? Phương pháp phân tích, nguồn và các ví dụ minh họa

Mục Lục

Thu thập dữ liệu ngoài việc tham khảo nguồn gốc và nguồn chính, chúng ta còn có thể thu nhập dữ liệu thông qua bên thứ ba, một quy trình phổ biến với dữ liệu thứ cấp. Nó tận dụng việc thu thập dữ liệu từ nghiên cứu cũ để sử dụng cho việc thực hiện nghiên cứu mới.

Chúng ta sẽ nghiên cứu dữ liệu thứ cấp (secondary data) thông qua các ví dụ, nguồn và phương pháp phân tích sau:

Dữ liệu thứ cấp (secondary data) là gì?

Dữ liệu thứ cấp là dữ liệu đã có sẵn không phải do bản thân thu thập và đã được công bố rộng rãi, nên dễ thu thập và không tốn nhiều thời gian, chi phí. Có thể hiểu rằng, dữ liệu thứ cấp do người khác thu thập với mục đích khác được chúng ta sử dụng lại để phục vụ nghiên cứu của mình.

Một dữ liệu có thể được coi là thứ cấp đối với nghiên cứu này nhưng bên cạnh đó nó cũng có thể được coi là dữ liệu chính cho một nghiên cứu khác. Đây là trường hợp khi dữ liệu đang được sử dụng lại, làm dữ liệu chính cho nghiên cứu đầu tiên và dữ liệu thứ cấp cho nghiên cứu thứ hai.

Nguồn dữ liệu thứ cấp

Nguồn dữ liệu thứ cấp như sách, nguồn cá nhân, tạp chí, báo chí, trang web, hồ sơ chính phủ, ... Dữ liệu thứ cấp được biết là luôn có sẵn so với dữ liệu sơ cấp. Nó đòi hỏi rất ít nghiên cứu và cần nhân lực để sử dụng các nguồn này.

Nguồn dữ liệu thứ cấp đã trở nên dễ dàng truy cập hơn nhờ vào sự tiện ích của các phương tiện Internet. Với một số ví dụ sau đây:

Sách

Sách là nguồn thu thập dữ liệu truyền thống nhất từ trước đến nay. Ngày nay không khó để tìm ra một cuốn sách với chủ đề mà bạn có thể nghĩ ra.

Khi thực hiện nghiên cứu, tất cả những gì bạn phải làm là tìm kiếm một cuốn sách về chủ đề đang nghiên cứu, sau đó chọn trong kho sách sẵn có trong lĩnh vực đó. Khi được lựa chọn cẩn thận sách được xem là nguồn dữ liệu xác thực và rất hữu ích.

Nguồn đã xuất bản

Có nhiều nguồn được xuất bản dành cho các chủ đề nghiên cứu khác nhau. Tính xác thực của dữ liệu từ các nguồn này phụ thuộc chủ yếu vào người viết và công ty xuất bản.

Các nguồn đã xuất bản có thể được in hoặc đọc trực tuyến trên Internet tùy từng trường hợp. Chúng có thể được trả phí hoặc miễn phí tùy thuộc vào quyết định của nhà văn và công ty xuất bản.

Nguồn cá nhân chưa được xuất bản

Có thể không có sẵn và dễ dàng truy cập hơn so với các nguồn đã xuất bản. Chúng chỉ có thể truy cập được nếu nhà nghiên cứu chia sẻ với nhà nghiên cứu khác, nhưng không được phép chia sẻ với bên thứ ba.

Ví dụ, nhóm quản lý sản phẩm của một tổ chức có thể cần dữ liệu về phản hồi của khách hàng để đánh giá xem khách hàng nghĩ gì về sản phẩm của họ và đề xuất cải tiến. Họ sẽ cần thu thập dữ liệu từ bộ phận dịch vụ khách hàng, bộ phận chủ yếu thu thập dữ liệu để cải thiện dịch vụ khách hàng.

Tạp chí

Việc thu thập dữ liệu đã khiến tạp chí ngày càng phổ biến hơn sách. Điều này xuất phát là do các tạp chí được cập nhật thường xuyên với các ấn phẩm mới được phát hành định kỳ hằng ngày hơn là sách.

Ngoài ra, các tiêu đề trên tạp chí thường cụ thể hơn khi nói đến nghiên cứu. Ví dụ: chúng ta có thể tìm thấy một tạp chí với tiêu đềchi tiết là "Thu thập dữ liệu thứ cấp cho dữ liệu định lượng" trong khi một cuốn sách sẽ chỉ có tiêu đề "Thu thập dữ liệu thứ cấp".

Báo

Thông tin được viết trên báo thường rất đáng tin cậy. Do đó, nó trở thành một trong những nguồn thu thập dữ liệu thứ cấp có tính xác thực nhất. Dữ liệu được chia sẻ trên báo chí thường mang tính chính trị, kinh tế và giáo dục hơn là khoa học. Do đó, báo chí không phải là nguồn tốt nhất để thu thập dữ liệu khoa học.

Trang web

Thông tin được chia sẻ trên các trang web hầu hết không được quản lý và vì lẽ đó nó sẽ không đáng tin cậy so với các nguồn khác.

Tuy nhiên, có một số trang web được quy định chỉ chia sẻ dữ liệu xác thực và có thể được các nhà nghiên cứu tin tưởng. Hầu hết các trang web này thường là trang web của chính phủ hoặc các tổ chức tư nhân được trả tiền, người thu thập dữ liệu.

Blog

Blog là nguồn dữ liệu trực tuyến phổ biến nhất nhưng nó có thể kém xác thực hơn so với các nguồn khác. Thực tế mọi người đều sở hữu blog của riêng mình và có rất nhiều người sử dụng blog để tăng lượng truy cập vào trang web của họ hoặc kiếm tiền thông qua các quảng cáo trả phí.

Vì vậy, không phải lúc nào blog cũng đáng tin cậy. Ví dụ: một blogger có thể viết những điều tốt đẹp về một sản phẩm vì họ được nhà sản xuất trả tiền để làm điều đó mặc dù những điều này không đúng sự thật.

Nhật ký

Nhật ký được biết đến là hồ sơ cá nhân và vì như thế chúng hiếm khi được các nhà nghiên cứu sử dụng để thu thập dữ liệu.

Ngoài ra, nhật ký thường mang tính cá nhân, ngoại trừ những trường hợp mọi người chia sẻ nhật ký công khai chứa các sự kiện cụ thể trong cuộc sống của họ. Minh họa về điều này là cuốn nhật ký của Anne Frank có ghi chép chính xác về các cuộc chiến tranh của Đức Quốc xã.

Hồ sơ Chính phủ

Hồ sơ chính phủ là một nguồn dữ liệu thứ cấp rất quan trọng và xác thực. Chúng chứa thông tin hữu ích trong nghiên cứu tiếp thị, quản lý, nhân văn và khoa học xã hội.

Một số hồ sơ này bao gồm; dữ liệu điều tra dân số, hồ sơ sức khỏe, hồ sơ viện giáo dục,... Chúng thường được thu thập để hỗ trợ việc lập kế hoạch, phân bổ vốn và ưu tiên các dự án phù hợp.

Podcast

Trong thời đại ngày nay podcast được rất nhiều người nghe và nó đang dần thay thế cho radio.

Nó giống các đài phát thanh trực tuyến và sự phổ biến ngày càng tăng. Thông tin thường được chia sẻ trong podcast và người nghe có thể sử dụng nó như một nguồn thu thập dữ liệu.

Các công cụ thu thập dữ liệu thứ cấp (secondary data) là gì?

Các công cụ phổ biến được sử dụng để thu thập dữ liệu thứ cấp bao gồm: bot, thiết bị, thư viện,... Để dễ trong quá trình thu thập dữ liệu từ các nguồn dữ liệu thứ cấp được nêu ở trên, các nhà nghiên cứu sử dụng các công cụ quan trọng được giải thích dưới đây.

Bots

Có rất nhiều dữ liệu trực tuyến và vì thế mà các nhà nghiên cứu khó mà có thể duyệt hết tất cả các dữ liệu. Để dễ dàng cho quá trình thu thập dữ liệu này, các lập trình viên đã tạo ra các chương trình để thực hiện quét web tự động cho các dữ liệu có liên quan.

Các bot này là "robot phần mềm" được lập trình để thực hiện một số nhiệm vụ cho các nhà nghiên cứu. Các doanh nghiệp thường sử dụng bot để lấy dữ liệu từ các diễn đàn và phương tiện truyền thông xã hội để phân tích sự cạnh tranh.

Thiết bị hỗ trợ Internet

Đây có thể là điện thoại di động, PC hoặc máy tính bảng có kết nối internet. Chúng được sử dụng để truy cập các tạp chí, sách, blog, ... để thu thập dữ liệu thứ cấp.

Thư viện

Đây là một công cụ thu thập dữ liệu thứ cấp truyền thống cho các nhà nghiên cứu. Thư viện chứa các tài liệu liên quan cho hầu như tất cả các lĩnh vực nghiên cứu mà bạn có thể nghĩ đến và nó có thể truy cập được cho tất cả mọi người.

Một nhà nghiên cứu có thể quyết định ngồi trong thư viện một thời gian để thu thập dữ liệu thứ cấp hoặc mượn tài liệu một thời gian và quay lại trả sau khi thu thập xong dữ liệu cần thiết.

Đài phát thanh

Là một trong những nguồn thu thập dữ liệu thứ cấp mà chúng ta cần có đài để mà có thể truy cập vào chúng. Sự ra đời của công nghệ thậm chí còn khiến người ta có thể nghe radio trên điện thoại di động, cho rằng việc lấy radio là điều không cần thiết.

Phân tích dữ liệu thứ cấp

Phân tích dữ liệu thứ cấp là quá trình phân tích dữ liệu được thu thập từ một nhà nghiên cứu khác, người chủ yếu thu thập dữ liệu này cho một mục đích khác. Các nhà nghiên cứu tận dụng dữ liệu thứ cấp để tiết kiệm thời gian và tài nguyên mà lẽ ra phải dành cho việc thu thập dữ liệu chính.

Phân tích dữ liệu thứ cấp có thể được thực hiện về mặt định lượng hoặc định tính tùy thuộc vào loại dữ liệu mà nhà nghiên cứu đang xử lý. Phương pháp định lượng được sử dụng trên dữ liệu số và được phân tích bằng toán học, trong khi phương pháp định tính sử dụng từ ngữ để cung cấp thông tin chuyên sâu về dữ liệu.

Cách phân tích dữ liệu thứ cấp

Có các giai đoạn phân tích dữ liệu thứ cấp khác nhau, liên quan đến các sự kiện trước, trong và sau khi thu thập dữ liệu. Các giai đoạn này bao gồm:

Tuyên bố mục đích

Trước khi thu thập dữ liệu thứ cấp để phân tích, bạn cần phải tuyên bố mục đích của mình. Hiểu rõ lý do tại sao bạn cần phải thu thập dữ liệu — mục đích cuối cùng của công việc nghiên cứu và dữ liệu này giúp bạn đạt được những gì.

Điều này sẽ giúp bạn định hướng được việc thu thập dữ liệu phù hợp hơn đồng thời chọn nguồn dữ liệu và phương pháp phân tích tốt hơn.

Thiết kế nghiên cứu

Bạn cần đề ra một kế hoạch về cách các hoạt động nghiên cứu sẽ được thực hiện. Nó cần có một kế hoạch rõ ràng như mô tả loại dữ liệu nào được thu thập, nguồn thu thập dữ liệu, phương pháp thu thập dữ liệu, công cụ và thậm chí cả phương pháp phân tích.

Sau khi xác định được mục đích nghiên cứu, nhà nghiên cứu nên thiết kế một quy trình nghiên cứu để định hướng cho quá trình phân tích dữ liệu.

Phát triển các câu hỏi nghiên cứu

Chỉ biết mục đích nghiên cứu thôi là chưa đủ, bạn cần phát triển các câu hỏi nghiên cứu vì điều đó sẽ giúp xác định tốt hơn dữ liệu thứ cấp. Do chúng thường là một nhóm dữ liệu để bạn lựa chọn và việc đặt câu hỏi phù hợp sẽ hỗ trợ việc thu thập dữ liệu xác thực.

Ví dụ, một nhà nghiên cứu đang cố gắng thu thập dữ liệu về thức ăn cho cá để giúp cá tăng trưởng nhanh sẽ phải đặt ra những câu hỏi như: Cá nào nên ăn? Dữ liệu là định lượng hay định tính? Thành phần có trong thức ăn là gì? Tốc độ tăng trưởng ở cá sau khi cho ăn, ...

Xác định dữ liệu thứ cấp

Sau khi phát triển các câu hỏi nghiên cứu, họ sử dụng chúng như một hướng dẫn để xác định dữ liệu có liên quan từ kho dữ liệu. Ví dụ, nếu loại dữ liệu cần thu thập là định tính, nhà nghiên cứu có thể lọc ra dữ liệu định tính. Dữ liệu thứ cấp phù hợp sẽ là dữ liệu trả lời chính xác các câu hỏi được đánh dấu ở trên.

Ví dụ, khi tìm kiếm các giải pháp cho một bài toán lập trình tuyến tính, các giải pháp sẽ là các số thỏa mãn cả mục tiêu và các ràng buộc. Bất kỳ câu trả lời nào không thỏa mãn cả hai, không phải là một giải pháp phù hợp.

Đánh giá dữ liệu thứ cấp

Giai đoạn này được nhiều người phân loại là giai đoạn phân tích dữ liệu thực bởi vì nó là điểm mà phân tích thực sự được thực hiện. Tuy nhiên, các giai đoạn được đánh dấu ở trên là một phần của quá trình phân tích dữ liệu, vì chúng ảnh hưởng đến cách phân tích được thực hiện.

Khi tập dữ liệu có vẻ khả thi trong việc giải quyết các yêu cầu ban đầu được thảo luận ở trên, bước tiếp theo của quy trình là đánh giá tập dữ liệu để đảm bảo tính phù hợp cho chủ đề nghiên cứu. Dữ liệu được đánh giá để đảm bảo rằng nó thực sự giải quyết được tuyên bố của vấn đề và trả lời các câu hỏi nghiên cứu.

Ưu điểm của dữ liệu thứ cấp (secondary data)

Dễ dàng truy cập

Hầu hết các nguồn dữ liệu thứ cấp đều có thể dễ dàng truy cập được đối với các nhà nghiên cứu. Các nguồn này có thể được truy cập trực tuyến thông qua thiết bị di động.

Những người không có quyền truy cập internet cũng có thể truy cập chúng thông qua bản in. Chúng thường có sẵn trong thư viện, cửa hàng sách và thậm chí có thể cho người khác mượn.

Không tốn kém

Dữ liệu thứ cấp hầu hết yêu cầu ít hoặc miễn phí để mọi người có thể sử dụng được chúng. Nhiều sách và tạp chí có thể được tải xuống trực tuyến miễn phí.

Những người không có mạng cũng có thể mượn sách miễn phí từ thư viện công cộng. Các nhà nghiên cứu không phải chi tiền cho các cuộc điều tra, và rất ít chi cho việc mua sách.

Tiết kiệm thời gian

Thời gian dành cho việc thu thập dữ liệu thứ cấp thường rất ít so với thời gian dành cho việc thu thập dữ liệu sơ cấp.

Điều tra duy nhất cần thiết để thu thập dữ liệu thứ cấp là quá trình tìm kiếm nguồn dữ liệu cần thiết. Điều này sẽ tiết kiệm một lượng thời gian đáng kể cho người nghiên cứu.

Nghiên cứu so sánh và dọc

Dữ liệu thứ cấp giúp bạn dễ dàng thực hiện các nghiên cứu dọc mà không cần phải đợi vài năm để đưa ra kết luận.

Ví dụ: bạn muốn so sánh dân số của đất nước theo điều tra dân số 5 năm trước và bây giờ. Thay vì chờ đợi 5 năm, bây giờ ta có thể dễ dàng so sánh bằng cách thu thập điều tra dân số 5 năm trước và bây giờ.

Tạo thông tin chi tiết mới

Có thể có một điều mà trước đây người thu thập dữ liệu chính chưa phát hiện ra nhưng thông qua lăng kính và quan điểm của người khác, những điều mới sẽ được khám phá ra.

Ví dụ: khi khách hàng phàn nàn về việc gặp khó khăn khi sử dụng ứng dụng với nhóm dịch vụ khách hàng, họ có thể quyết định tạo hướng dẫn sử dụng để hướng dẫn khách hàng cách sử dụng ứng dụng đó. Tuy nhiên, khi một nhà phát triển sản phẩm có quyền truy cập vào dữ liệu này, họ phát hiện ra rằng vấn đề đến từ thiết kế UI / UX và cần được khắc phục.

Nhược điểm của dữ liệu thứ cấp

Chất lượng dữ liệu:

Dữ liệu được thu thập thông qua các nguồn thứ cấp có thể không xác thực như khi được thu thập trực tiếp từ các nguồn chính.

Đây là một nhược điểm rất phổ biến với các nguồn trực tuyến do thiếu các cơ quan quản lý để giám sát loại nội dung đang được chia sẻ. Do đó, làm việc với loại dữ liệu này có thể có tác động tiêu cực đến nghiên cứu đang được thực hiện.

Dữ liệu không liên quan

Các nhà nghiên cứu dành rất nhiều thời gian để chọn lọc lại những dữ liệu không liên quan trước khi kiếm được dữ liệu mà họ cần. Điều này là do dữ liệu không được thu thập chủ yếu cho nhà nghiên cứu.

Trong một số trường hợp, một nhà nghiên cứu thậm chí có thể không tìm thấy dữ liệu chính xác mà họ cần, vì thế họ cần tìm giải pháp thay thế tốt nhất tiếp theo.

Dữ liệu phóng đại

Một số nguồn dữ liệu được biết đến là phóng đại thông tin đang được chia sẻ ngày càng nhiều. Điều này rất phổ biến với nhiều blog trực tuyến, họ thậm chí còn đi chia sẻ thông tin sai lệch chỉ để đạt được lưu lượng truy cập web.

Ví dụ: một công ty khởi nghiệp FinTech có thể phóng đại số tiền mà họ đã xử lý chỉ để thu hút nhiều khách hàng hơn.

Thông tin lỗi thời

Một số nguồn dữ liệu đã lỗi thời và không có sẵn dữ liệu mới để thay thế những nguồn cũ.

Ví dụ, điều tra dân số quốc gia thường không được cập nhật hàng năm. Nhưng hàng năm đều có sự thay đổi dân số nhưng không có ai thống kê lại con số này, vì thế đất nước cần một người nào đó có thể cập nhật lại con số này trước khi nó đã quá lỗi thời.

Kết luận

Dữ liệu thứ cấp có nhiều mục đích sử dụng trong nghiên cứu, kinh doanh và thống kê. Các nhà nghiên cứu chọn dữ liệu thứ cấp vì những lý do khác nhau ví dụ như là do giá cả, tính sẵn có hoặc thậm chí là nhu cầu của nghiên cứu.

Mặc dù thông tin đã cũ nhưng dữ liệu thứ cấp có thể là nguồn dữ liệu duy nhất trong một số trường hợp. Điều này có thể là do chi phí thực hiện nghiên cứu quá lớn hoặc do sự ủy quyền của nó cho một cơ quan cụ thể (ví dụ: điều tra dân số quốc gia).

Tóm lại, dữ liệu thứ cấp có những khuyết điểm, có thể ảnh hưởng tiêu cực đến kết quả nghiên cứu và cũng có một số ưu điểm so với dữ liệu sơ cấp. Tất cả phụ thuộc vào tình huống, nhà nghiên cứu được đề cập và loại nghiên cứu đang được thực hiện.

Bài viết được dịch từ đây

Nếu bạn có định hướng trở thành Data Analyst chuyên nghiệp thì bạn có thể tham khảo bộ khóa học toàn diện chuyên nghiệp với combo 4 khóa học trong 1 bootcamp của 200Lab: https://200lab.io/khoa-hoc/khoa-hoc-data-analysis

Ngoài ra, bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!