Facebook Pixel

Kinh nghiệm phỏng vấn Data Analyst: Những câu hỏi thường gặp

15 Sep, 2023

Kieu Hoa

Author

Bỏ túi những câu hỏi phỏng vấn Data Analyst thường gặp và cách trả lời sao cho hiệu quả nhất. Tự tin tham gia phỏng vấn Data Analyst thôi!

Kinh nghiệm phỏng vấn Data Analyst: Những câu hỏi thường gặp

Mục Lục

Bạn vừa nhận được thư mời phỏng vấn Data Analyst mơ ước? Xin chúc mừng vì bạn đã có một hồ sơ xin việc thật ấn tượng. Tuy nhiên, vòng phỏng vấn tiếp theo mới thực sự "khó nhằn". Làm thế nào để phỏng vấn thành công vị trí Data Analyst và nhận được offer "xịn" với mức lương cao? Hãy bỏ túi kinh nghiệm phỏng vấn Data Analyst và cách trả lời những câu hỏi thường gặp nhé.

Các cuộc phỏng vấn có thể rất đáng sợ. Nếu bạn không chuẩn bị tốt, căng thẳng và lo lắng có thể dễ dàng xâm chiếm. Dưới đây là danh sách những câu hỏi của người phỏng vấn có thể giúp bạn cảm thấy bớt căng thẳng và tự tin hơn.

Chuẩn bị những gì trước khi tham gia phỏng vấn Data Analyst?

Để chuẩn bị cho cuộc phỏng vấn vị trí Data Analyst sắp tới, hãy tập trung vào việc cải thiện các kỹ năng quan trọng sau đây:

  1. Thành thạo trong một ngôn ngữ lập trình: Làm chủ ít nhất một ngôn ngữ lập trình như Python hoặc R.
  2. Hiểu biết chuyên sâu về SQL và quản lý cơ sở dữ liệu: Hiểu rõ về cách truy vấn dữ liệu và quản lý cơ sở dữ liệu là yếu tố quan trọng.
  3. Nâng cao khả năng sử dụng Microsoft Excel: Sử dụng Excel một cách thông thạo có thể giúp bạn trong việc phân tích và biểu đồ hóa dữ liệu.
  4. Kiến thức về thống kê: Hiểu biết sâu về các phương pháp thống kê và ứng dụng chúng trong phân tích dữ liệu.
  5. Phát triển khả năng xử lý dữ liệu lớn: Có khả năng làm việc với dữ liệu lớn và áp dụng các kỹ thuật xử lý dữ liệu hiệu quả.

Đặc biệt, bạn nên sẵn sàng cho phần phỏng vấn về SQL bằng việc nắm vững các câu hỏi mẫu và cách trả lời. SQL, hay Ngôn ngữ Truy vấn Cấu trúc, là một trong những kỹ năng quan trọng nhất mà một Data Analyst cần có. Khi bạn đang chuẩn bị cho cuộc phỏng vấn vị trí Data Analyst, hãy chuẩn bị tinh thần rằng SQL có thể xuất hiện trong phần phỏng vấn.

Data Analyst là gì? Trở thành Data Analyst cần chuẩn bị gì?
Data Analyst là một trong những công việc có nhu cầu tuyển dụng cao nhất ở thời điểm hiện tại. Vậy cần chuẩn bị gì để trở thành Data analyst?

Ngoài ra, bạn nên thực hiện các bước chuẩn bị sau đây:

  • Luyện tập trả lời các câu hỏi phỏng vấn tiêu chuẩn: Chuẩn bị trước để có thể trả lời một cách tự tin và rõ ràng.
  • Tìm hiểu về công ty: Hiểu về lịch sử, văn hóa và sản phẩm/dự án của công ty mà bạn đang phỏng vấn.
  • Tập trung vào việc luyện tập các câu hỏi phỏng vấn kỹ thuật: Chuẩn bị cho phần phỏng vấn về SQL bằng việc nắm vững các câu hỏi mẫu và cách trả lời chúng.
  • Duy trì tác phong và thái độ chuyên nghiệp trong trang phục, ngôn ngữ và hãy thật tự tin nhé.
SQL LÀ GÌ? ƯU-NHƯỢC ĐIỂM VÀ CÁC CÂU LỆNH TRONG SQL
SQL (Structured Query Language) là ngôn ngữ máy tính cơ sở dữ liệu được thiết kế để truy xuất và quản lý dữ liệu trong cơ sở dữ liệu quan hệ.

Những câu hỏi phỏng vấn Data Analyst phổ biến

Dưới đây là tập hợp các câu hỏi phỏng vấn Data Analyst phổ biến được tuyển chọn dành cho người mới bắt đầu.

phỏng vấn Data Analyst
Câu hỏi phỏng vấn Data Analyst phổ biến

1. Tại sao bạn muốn trở thành Data Analyst?

Có rất nhiều vị trí với những vai trò khác nhau trong ngành phân tích dữ liệu . Câu hỏi này giúp người phỏng vấn biết bạn muốn hướng đến vị trí nào. Trả lời câu hỏi này theo phương pháp STAR bằng cách giải thích những lý do chính khiến bạn muốn trở thành data analyst cũng như những kỹ năng bạn có phù hợp với công việc này:

Câu trả lời tham khảo:

“Công việc của data analyst là thu thập và phân tích dữ liệu giúp các công ty đưa ra quyết định kinh doanh tốt hơn. Tôi cảm thấy bản thân nhạy bén với các con số, thu thập nhanh các dữ liệu và nghiên cứu thị trường. Tôi quyết định chọn công việc này vì nó phù hợp với những điểm mạnh của tôi. Bên cạnh đó, tôi cảm thấy dữ liệu và nghiên cứu thị trường rất thú vị ”.

2. Bạn thích làm việc trong lĩnh vực Data Analyst nào hơn và tại sao?

phỏng vấn Data Analyst
Bạn thích làm việc trong lĩnh vực nào hơn và tại sao?

Data Analyst có thể làm việc trong các lĩnh vực khác nhau như tài chính, tiếp thị, bảo hiểm, truyền thông, chăm sóc sức khỏe, ... Hãy giải thích bạn thích lĩnh vực nào và trả lời cụ thể để người phỏng vấn hiểu bạn hơn.

Câu trả lời tham khảo:

“Tôi muốn làm việc như một nhà phân tích tiếp thị (marketing analyst) vì nó phù hợp với kỹ năng và sở thích của tôi. Ngoài ra, tôi thấy rất nhiều công ty trong các ngành công nghiệp lớn tuyển dụng vị trí này. Điều đó giúp tôi có nhiều cơ hội để phát triển hơn trong sự nghiệp của mình.

3. Bạn thông thạo phần mềm phân tích dữ liệu nào?

Câu hỏi này giúp người phỏng vấn biết các kỹ năng cứng của bạn có đạt tiêu chuẩn hay không và có thể cung cấp insight về lĩnh vực bạn muốn đào tạo thêm. Trong câu trả lời, bạn hãy nói về phần mềm mà bài tuyển dụng nhấn mạnh, bất kỳ trải nghiệm nào với phần mềm đó và sử dụng những thuật ngữ quen thuộc.

Câu trả lời tham khảo:

“Tôi có nhiều kinh nghiệm về phần mềm. Ví dụ, tại công ty hiện tại, tôi thực hiện rất nhiều thuật toán quản lý dữ liệu và khai thác dữ liệu ELKI. Tôi cũng có thể tạo databases trong Access và tạo bảng trong Excel. ”

4. Dự án phân tích dữ liệu khó khăn nhất bạn từng thực hiện là gì?

phỏng vấn Data Analyst
Dự án phân tích dữ liệu khó khăn nhất của bạn là gì?

Với câu hỏi này, người phỏng vấn muốn hiểu sâu hơn về cách bạn tiếp cận và giải quyết vấn đề. Trong câu trả lời, bạn nhớ giải thích sự kiện, hành động, kết quả, tránh đổ lỗi cho người khác và giải thích tại sao dự án này lại khó khăn.

Câu trả lời tham khảo:

“Dự án khó khăn nhất của tôi là về động vật có nguy cơ tuyệt chủng. Tôi phải dự đoán có bao nhiêu loài động vật sống sót đến năm 2020, 2050 và 2100. Trước đó, tôi phải xử lý dữ liệu có sẵn, với các sự kiện đã xảy ra. Vì vậy, tôi đã nghiên cứu các môi trường sống khác nhau, những động vật ăn thịt và các yếu tố khác nữa. Cuối cùng tôi đưa ra dự đoán và cảm thấy rất tin tưởng với kết quả đó. ”

5. Hãy thử giải thích cách bạn ước tính có bao nhiêu khách du lịch đến thăm Paris vào mỗi tháng 5.

Nhiều người phỏng vấn hỏi bạn loại câu hỏi hành vi này để xem quá trình suy nghĩ của một analyst mà không cần sự trợ giúp của máy tính và bộ dữ liệu. Xét cho cùng, công nghệ chỉ tốt và đáng tin cậy khi có người đứng sau nó.

Câu trả lời tham khảo:

“Đầu tiên, tôi sẽ thu thập dữ liệu số lượng người sống ở Paris, bao nhiêu khách du lịch đến thăm trong tháng 5 và thời gian lưu trú trung bình của họ. Tôi sẽ chia nhỏ các con số theo độ tuổi, giới tính, thu nhập và tìm số ngày nghỉ phép và ngày nghỉ ngân hàng (bank holiday) ở Pháp. Tôi cũng sẽ tìm hiểu xem văn phòng du lịch có bất kỳ dữ liệu nào có thể xem xét không ”.

6. Điểm mạnh giao tiếp của bạn là gì?

phỏng vấn Data Analyst
Điểm mạnh giao tiếp của bạn là gì?

Giao tiếp là chìa khóa của bất kỳ vị trí nào. Cụ thể, với vai trò data analyst, bạn sẽ phải trình bày những phát hiện của mình và làm việc với nhóm. Hãy nói về khả năng giao tiếp của bạn với câu trả lời như thế này.

Câu trả lời tham khảo:

“Sức mạnh giao tiếp lớn nhất của tôi là khả năng truyền tải thông tin. Tôi biết cách diễn đạt đơn giản nhưng hiệu quả để ngay cả những người không biết các thuật ngữ chuyên ngành cũng có thể nắm được các khái niệm tổng thể. Tôi nghĩ giao tiếp đóng vai trò vô cùng quan trọng khi đảm nhận vị trí này, cụ thể là khi trình bày những phát hiện của tôi với mọi người xung quanh. ”

7. Bạn giải quyết những áp lực và căng thẳng như thế nào?

Cách tốt nhất để trả lời câu hỏi này là đưa ra ví dụ cụ thể về cách bạn đã làm để giải quyết căng thẳng trong công việc trước đây. Nhờ thế, người phỏng vấn biết được bạn làm việc như thế nào trong những tình huống căng thẳng. Tránh đề cập đến trường hợp bạn tự đặt bản thân vào tình huống áp lực không cần thiết. Thay vào đó, hãy mô tả khoảng thời gian bạn được giao một nhiệm vụ rất khó khăn hoặc được giao nhiều nhiệm vụ.

Câu trả lời tham khảo:

“Tôi thực sự làm việc tốt hơn dưới áp lực và thích làm việc trong môi trường đầy thử thách. Khi áp lực về deadline, tôi có thể hoàn thành một số công việc với chất lượng cao. Ví dụ, tôi đã từng phải hoàn thành ba dự án lớn có deadline cùng một tuần, điều này rất áp lực. Tuy nhiên, bởi vì tôi đã tạo ra một kế hoạch chi tiết bằng cách chia từng dự án thành các nhiệm vụ nhỏ, nên tôi đã hoàn thành cả ba dự án trước thời hạn và tránh những căng thẳng không cần thiết”.

8. Mục tiêu dài hạn của bạn là gì?

phỏng vấn Data Analyst
Mục tiêu dài hạn của bạn là gì?

Biết mục tiêu của công ty là gì để nhấn mạnh khả năng của bản thân để giúp họ đạt được. Không thảo luận về các mục tiêu cá nhân ngoài công việc, chẳng hạn như có gia đình hoặc đi du lịch vòng quanh thế giới, khi trả lời câu hỏi này. Thông tin này không liên quan.

Câu trả lời tham khảo:

“Mục tiêu dài hạn của tôi liên quan đến việc phát triển cùng với một công ty nơi tôi có thể tiếp tục học hỏi, đảm nhận thêm trách nhiệm và đóng góp nhiều giá trị nhất có thể. Tôi rất thích việc công ty của bạn coi trọng các cơ hội phát triển nghề nghiệp. Tôi muốn tận dụng tất cả những cơ hội này ”.

9. Tại sao chúng tôi nên thuê bạn?

Khi nói câu này, thực ra, người phỏng vấn muốn hỏi, "Điều gì khiến bạn trở thành người phù hợp nhất với vị trí này?" Câu trả lời của bạn phải là một “lời rao bán hàng” ngắn gọn giải thích những gì bạn phải cung cấp cho nhà tuyển dụng. Hãy trả lời thật tự tin và ngắn gọn, bạn có thể sử dụng các dự án đã thực hiện, những điều gặt hái được trong suốt quá trình học tập và làm việc để làm rõ luận điểm của mình.

Câu trả lời tham khảo:

“ Là một Data Analyst, tôi có thể làm việc tốt với tư cách cá nhân cũng như hợp tác cùng đội nhóm. Trong dự án ABC, tôi đã hoàn thành tốt vai trò như một XYZ... Tôi tự tin rằng mình sở hữu kiến thức, kỹ năng, kinh nghiệm và đam mê cần thiết để mang đến giá trị cho quý công ty.”

10. Đề cập đến sự khác nhau giữa Data Mining và Data Profiling?

Data Mining

  • Khai phá dữ liệu (Data Mining) là quá trình khám phá những thông tin liên quan mà trước đó chưa được xác định.
  • Trong khai phá dữ liệu, dữ liệu thô được chuyển thành thông tin có giá trị.

Data Profiting

  • Hồ sơ dữ liệu (Data Profiting) được thực hiện để đánh giá tập dữ liệu về tính duy nhất, logic và nhất quán của nó.
  • Không thể xác định các giá trị dữ liệu không chính xác hoặc sai.

11. Hãy xác định thuật ngữ Data Wrangling trong Data Analytics.

Sắp xếp dữ liệu (Data Wrangling) là quá trình chuyển đổi từ dữ liệu dạng thô sang dạng sẵn sàng phân tích. Sắp xếp dữ liệu là bước quan trọng trong tiền xử lý dữ liệu và bao gồm một số quy trình như nhập, làm sạch, cấu trúc dữ liệu, xử lý chuỗi, phân tích cú pháp HTML, xử lý ngày và giờ, xử lý dữ liệu bị thiếu và khai thác văn bản.

12. Các bước trong bất kỳ dự án phân tích là gì?

phỏng vấn Data Analyst
Các bước trong bất kỳ dự án phân tích?

Đây là một trong những câu hỏi phỏng vấn cơ bản nhất dành cho Data Analyst. Dưới đây là các bước khác nhau trong bất kỳ dự án phân tích dữ liệu nào. Hãy nắm rõ các bước quan trọng để trả lời tốt nhất nhé.

Hiểu vấn đề

Hiểu vấn đề kinh doanh, xác định các mục tiêu của tổ chức và lập kế hoạch cho các giải pháp. Bạn cũng nên tìm hiểu rõ về quy trình vận hành của một doanh nghiệp để dễ dàng xác định các vấn đề có khả năng sẽ xảy ra.

Thu thập dữ liệu

Sau khi hiểu rõ về "bài toán" phân tích dữ liệu, bạn có thể đưa ra các giả định; sau đó, thu thập dữ liệu phù hợp từ nhiều nguồn khác nhau cùng với các thông tin khác dựa trên mức độ ưu tiên của bạn.

Làm sạch dữ liệu

Làm sạch dữ liệu để loại bỏ các giá trị không mong muốn, thừa và thiếu, đồng thời chuẩn bị sẵn dữ liệu để phân tích. Hầu hết các bộ dữ liệu (data-set) từ doanh nghiệp thường đòi hỏi phải được làm sạch và cấu trúc lại.

Khám phá và phân tích dữ liệu

Sử dụng các data visualization và công cụ BI, kỹ thuật data mining và mô hình dự đoán để phân tích dữ liệu.

Diễn giải kết quả

Diễn giải kết quả để tìm ra các mẫu ẩn, xu hướng trong tương lai và có được những kết luận hữu ích. Từ những kết luận này, bạn có thể đưa ra các giải pháp, phương án hành động phù hợp cho doanh nghiệp.

13. Các vấn đề phổ biến mà Data Analyst thường gặp trong quá trình phân tích là gì?

phỏng vấn Data Analyst
Các vấn đề phổ biến mà Data Analyst thường gặp trong quá trình phân tích?

Các vấn đề thường gặp trong những dự án phân tích là:

  • Xử lý bản sao, trùng lặp (handling duplicate)
  • Thu thập dữ liệu phù hợp có ý nghĩa và đúng lúc
  • Xử lý các vấn đề xóa và lưu trữ dữ liệu
  • Bảo mật dữ liệu

14. Bạn đã sử dụng những công cụ kỹ thuật nào cho mục đích phân tích và trình bày?

Là một Data Analyst, bạn phải biết các công cụ dưới đây có mục đích phân tích và trình bày. Một số công cụ phổ biến bạn nên biết là:

MS SQL Server, MySQL

Để làm việc với dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ (Relational database)

MS Excel, Tableau

Để tạo báo cáo và dashboards

Python, R, SPSS

Để phân tích thống kê, lập mô hình dữ liệu và phân tích khám phá

MS PowerPoint

Để trình bày, hiển thị kết quả cuối cùng và các kết luận quan trọng

15. Cách tốt nhất để làm sạch dữ liệu là gì?

phỏng vấn Data Analyst
Cách tốt nhất để làm sạch dữ liệu là gì?
  • Tạo kế hoạch làm sạch dữ liệu bằng cách hiểu nơi các lỗi thường xảy ra
  • Trước khi làm việc với dữ liệu, hãy xác định và loại bỏ các bản sao, trùng lặp. Điều này sẽ giúp quá trình phân tích dữ liệu dễ dàng và hiệu quả hơn.
  • Tập trung vào tính chính xác của dữ liệu. Đặt cross-field validation, duy trì các loại giá trị của dữ liệu và cung cấp các ràng buộc (constraints) bắt buộc.
  • Chuẩn hóa (Normalize) dữ liệu tại điểm nhập. Điều đó giúp đảm bảo tất cả các thông tin đều được chuẩn hóa, dẫn đến việc nhập ít bị lỗi hơn.

16. Ý nghĩa của việc Phân tích Khám phá Dữ liệu (Exploratory Data Analysis)?

phỏng vấn Data Analyst
Ý nghĩa của việc phân tích khám phá dữ liệu (Exploratory Data Analysis)
  • EDA giúp hiểu rõ hơn về dữ liệu.
  • Nó giúp bạn tự tin vào dữ liệu của mình đến mức sẵn sàng sử dụng thuật toán machine learning.
  • Nó cho phép bạn tinh chỉnh lựa chọn về các biến tính năng mà sau này sẽ được sử dụng để xây dựng mô hình.
  • Bạn có thể khám phá các xu hướng ẩn và thông tin chi tiết từ dữ liệu.

17. Giải thích các phân tích đề xuất, dự đoán và mô tả

Phân tích mô tả

phỏng vấn Data Analyst
Giải thích các phân tích đề xuất, dự đoán và mô tả
  • Nó cung cấp thông tin chi tiết trong quá khứ để trả lời cho câu hỏi "điều gì đã xảy ra"
  • Sử dụng các kỹ thuật tập hợp dữ liệu (Data aggregation) và khai phá dữ liệu (data mining)

Ví dụ: Một công ty kem có thể phân tích số lượng, hương vị kem nào đã được bán và được bán nhiều/ít hơn so với ngày hôm trước

Phân tích dự đoán

  • Hiểu được tương lai để trả lời cho câu hỏi "điều gì có thể xảy ra"
  • Sử dụng các mô hình thống kê (Statistical model) và kỹ thuật dự báo

Phân tích đề xuất

  • Đề xuất những cách khác nhau để trả lời cho câu hỏi "bạn nên làm gì"
  • Sử dụng các thuật toán mô phỏng và kỹ thuật tối ưu hóa để đưa ra các kết quả

Ví dụ: Giảm giá để tăng doanh số bán kem, sản xuất nhiều/ít hơn số lượng kem với hương vị cụ thể

18. Các loại kỹ thuật lấy mẫu khác nhau được Data Analyst sử dụng?

phỏng vấn Data Analyst
Các loại kỹ thuật lấy mẫu khác nhau được Data Analyst sử dụng?

Chọn mẫu là phương pháp thống kê để chọn một tập hợp con dữ liệu từ toàn bộ tập dữ liệu (population) để ước tính các đặc điểm của tổng thể.

Chủ yếu có năm phương pháp lấy mẫu:

  • Simple random sampling
  • Systematic sampling
  • Cluster sampling
  • Stratified sampling
  • Judgmental or purposive sampling

19. Mô tả phân tích đơn biến, song biến và đa biến

Phân tích đơn biến là hình thức phân tích dữ liệu đơn giản và dễ dàng nhất. Trong đó, dữ liệu được phân tích chỉ chứa một biến.

Ví dụ - Nghiên cứu chiều cao của các cầu thủ trong giải NBA.

Phân tích đơn biến có thể được mô tả bằng cách sử dụng Xu hướng tập trung (Central Tendency), Sư phân tán (Dispersion), Tứ phân vị (Quartiles), biểu đồ hình cột (Bar charts), Biểu đồ tần suất (Histograms), biểu đồ tròn (Pie charts), và bảng phân phối tần suất (Frequency distribution tables).

Phân tích song biến bao gồm việc phân tích hai biến để tìm ra nguyên nhân, mối quan hệ và mối tương quan giữa các biến.

Ví dụ - Phân tích việc bán kem dựa vào nhiệt độ ngoài trời.

Phân tích song biến có thể được giải thích bằng cách sử dụng Hệ số tương quan (Correlation coefficients), Hồi quy tuyến tính (Linear regression), Hồi quy logistic, Biểu đồ phân tán (Scatter plots) và Biểu đồ hộp (Box plots).

Phân tích đa biến bao gồm việc phân tích ba hoặc nhiều biến số để hiểu mối quan hệ của mỗi biến số với các biến số khác.

Ví dụ - Phân tích Doanh thu dựa vào chi phí.

Phân tích đa biến có thể được thực hiện bằng cách sử dụng hồi quy bội (multiple regression), phân tích nhân tố (factor analysis), cây phân loại và hồi qui (Classification and Regression Tree), phân tích cụm (Cluster analysis), phân tích thành phần chính (Principal component analysis), biểu đồ kết hợp (Dual Axis Chart), v.v.

20. Bạn có câu hỏi nào cho công ty hay không?

phỏng vấn Data Analyst
Bạn có câu hỏi nào không?

Khi kết thúc buổi phỏng vấn, hầu hết những người phỏng vấn đều hỏi bạn có bất kỳ câu hỏi nào về công việc hoặc công ty hay không. Bạn nên chuẩn bị sẵn một số câu hỏi để chứng tỏ bản thân đã chuẩn bị cho cuộc phỏng vấn, đã suy nghĩ về những điều liên quan đến công ty hoặc tìm hiểu thêm những vai trò của vị trí.

Câu hỏi về vị trí tuyển dụng: Đây là cơ hội duy nhất để tìm hiểu thêm về những gì bạn sẽ làm, nếu chưa được đề cập kỹ lưỡng trước cuộc phỏng vấn. Đừng ngần ngại đưa ra những câu hỏi sâu về vị trí; điều này giúp bạn có thêm thông tin cần thiết cũng như thể hiện sự nghiêm túc đối với cơ hội này.

  • Bạn có thể chia sẻ thêm về trách nhiệm hàng ngày của vị trí này không? Một ngày cụ thể sẽ như thế nào?
  • Hiện có bao nhiêu thành viên trong nhóm này? Cơ hội học tập và được đào tạo thêm ở vị trí này là như thế nào?
  • ...

Câu hỏi về tổ chức hoặc người lãnh đạo: Bạn cần hiểu rõ về văn hóa công ty mà mình đang ứng tuyển vào. Sẽ rất tốn thời gian cho cả hai bên nếu bạn không sẵn sàng trước những thay đổi về môi trường và văn hóa. Đây cũng là cách thức để hiểu rõ hơn về cách vận hành của công ty.

  • Văn hóa và tổ chức công ty như thế nào? Điều gì bạn thích và không thích nhất ở công ty?
  • Lộ trình phát triển sự nghiệp/thăng tiến tại công ty ra sao?
  • ...

Các câu hỏi phỏng vấn nhà phân tích dữ liệu về thống kê thường gặp

21. Bạn có thể xử lý các giá trị bị thiếu trong tập dữ liệu như thế nào?

Đây là một trong những câu hỏi phỏng vấn mà nhà phân tích dữ liệu thường gặp nhất. Người phỏng vấn muốn bạn trả lời chi tiết chứ không chỉ nêu ra tên của các phương pháp. Có bốn phương pháp để xử lý các giá trị bị thiếu trong tập dữ liệu.

Listwise Deletion

Trong phương pháp xóa theo danh sách, toàn bộ bản ghi sẽ bị loại trừ khỏi phân tích nếu thiếu bất kỳ giá trị đơn lẻ nào.

Average Imputation

Lấy giá trị trung bình các câu trả lời của những người tham gia và điền vào giá trị còn thiếu.

Regression Substitution

Bạn có thể sử dụng phương pháp này để ước tính giá trị bị thiếu.

Multiple Imputations

Phương pháp này sử dụng tổ hợp đa khả năng để điền vào giá trị bị thiếu giúp giảm thiểu sự không chắc chắn trên bằng việc tính toán trên một vài lựa chọn khác nhau. Theo đó, một vài phiên bản dữ liệu hoàn thiện của dữ liệu được tạo ra. Cuối cùng, những phiên bản dữ liệu này được tổ hợp với nhau để tạo ra một phiên bản cuối cùng với các giá trị đã điền vào dữ liệu bị khuyết được coi là “chắc chắn” nhất.

22. Giải thích thuật ngữ Phân phối chuẩn (Normal Distribution)

Phân phối chuẩn là phân phối xác suất đối xứng quanh giá trị trung bình. Trong biểu đồ, phân phối chuẩn sẽ xuất hiện dưới dạng đường cong hình chuông.

Giá trị trung bình, trung vị và yếu vị (mode) là bằng nhau. Tất cả chúng đều nằm ở trung tâm của phân phối
68% dữ liệu nằm trong một độ lệch chuẩn của giá trị trung bình
95% dữ liệu nằm giữa hai độ lệch chuẩn của giá trị trung bình
99,7% dữ liệu nằm giữa ba độ lệch chuẩn của giá trị trung bình

23. Phân tích dãy số thời gian (Time series analysis) là gì?

Phân tích dãy số thời gian là phương pháp phân tích số liệu thống kê về các quá trình đã diễn ra, được ghi chép theo các khoảng thời gian nối tiếp nhau với mục tiêu sử dụng kinh nghiệm thu được trong quá khứ để dự báo tình hình sẽ xảy ra trong tương lai bất định. Như vậy, thông tin dưới dạng dãy số thời gian có thể phục vụ cho các mục tiêu dự báo.

Dưới đây là ví dụ của dữ liệu dãy số thời gian về các trường hợp coronavirus và biểu đồ của nó.

24. Overfitting khác với Underfitting như thế nào?

phỏng vấn Data Analyst

Đây là câu hỏi phỏng vấn nhà phân tích dữ liệu thường gặp. Và người phỏng vấn hy vọng bạn có thể nêu ra được tất cả các điểm khác biệt.

Overfitting (quá khớp)

  • Mô hình có độ chính xác cao với bộ dữ liệu huấn luyện, nhưng độ chính xác thấp với bộ dữ liệu mới (hay dữ liệu tổng thể).
  • Hiệu suất giảm đáng kể so với test set.
  • Xảy ra khi mô hình tìm hiểu chi tiết các biến động ngẫu nhiên và nhiễu trong bộ dữ liệu huấn luyện.

Underfitting (chưa khớp)

  • Mô hình có độ chính xác thấp trên cả bộ dữ liệu huấn luyện và bộ dữ liệu mô tả tổng thể mới.
  • Hoạt động kém cả trên train và test set.
  • Điều này xảy ra khi có ít dữ liệu hơn để xây dựng mô hình chính xác và khi phát triển mô hình tuyến tính bằng cách sử dụng dữ liệu phi tuyến tính.

25. Bạn xử lý outliers (điểm dị biệt) trong tập dữ liệu như thế nào?

Điểm dị biệt là điểm khác xa so với các điểm dữ liệu khác.

Biểu đồ mô tả bên dưới cho thấy có ba điểm dị biệt trong tập dữ liệu.

phỏng vấn Data Analyst

Để loại bỏ điểm dị biệt, bạn có thể sử dụng bốn phương pháp sau:

  • Loại bỏ các điểm dị biệt
  • Giới hạn dữ liệu của bạn
  • Gán cho giá trị mới
  • Thử một chuyển đổi (transformation) mới

26. Các loại kiểm định giả thuyết (Hypothesis Testing) khác nhau là gì?

Kiểm định giả thuyết là cách nhà thống kê và nhà khoa học sử dụng để chấp nhận hoặc bác bỏ các giả thuyết thống kê. Chủ yếu có hai loại kiểm định giả thuyết:

  • Giả thuyết rỗng (null hypothesis) cho thấy không có mối quan hệ giữa yếu tố dự đoán và biến kết quả trong population. Nó được ký hiệu là H0.

Ví dụ: Không có mối liên quan giữa BMI của bệnh nhân và bệnh tiểu đường.

  • Giả thuyết thay thế (alternative hypothesis) cho thấy có một số mối quan hệ giữa yếu tố dự báo và biến kết quả trong population. Nó được ký hiệu là H1.

Ví dụ: Có thể có mối liên quan giữa chỉ số BMI của bệnh nhân và bệnh tiểu đường.

27. Giải thích lỗi Loại I và Loại II trong Thống kê?

Trong kiểm định giả thuyết, lỗi Loại I xảy ra khi giả thuyết rỗng bị bác bỏ ngay cả khi nó đúng. Nó còn được gọi là dương tính giả.

Lỗi loại II xảy ra khi giả thuyết rỗng không bị bác bỏ, ngay cả khi nó sai. Nó còn được gọi là một âm tính giả.

Câu hỏi phỏng vấn nhà phân tích dữ liệu Excel

28. Trong Microsoft Excel, một giá trị số có thể được coi là giá trị văn bản nếu nó đứng trước giá trị nào?

29. Sự khác biệt giữa COUNT, COUNTA, COUNTBLANK và COUNTIF trong Excel là gì?

  • Hàm COUNT đếm số lượng ô có chứa các số trong một phạm vi
  • Hàm COUNTA đếm các ô không trống trong một phạm vi
  • Hàm COUNTBLANK đếm số lượng ô trống trong một phạm vi
  • Hàm COUNTIF đếm các ô trong một phạm vi đáp ứng điều kiện nhất định

30. Làm cách nào để tạo dropdown list trong MS Excel?

  • Đầu tiên, bấm vào tab Data.
  • Trong nhóm Data Tools, hãy chọn Data Validation.
  • Chọn tab Settings > Trong mục Allow chọn List
  • Đi đến mục Sources > Nhập tên các thành phần cần tạo list

31. Bạn có thể cung cấp dải tần nhạy sáng (Dynamic Range) trong “Data source” của pivot table không?

Có thể. Để làm điều đó, bạn cần tạo named range (một dải ô được đặt tên) bằng cách sử dụng hàm offset và tạo cơ sở cho pivot table bằng cách sử dụng named range được tạo ở bước đầu.

32. Hàm tìm ra ngày trong tuần từ ngày cụ thể là gì?

Để tìm ngày trong tuần, bạn có thể sử dụng hàm WEEKDAY().

Hàm trên sẽ trả về kết quả là 6, tức ngày 17 tháng 12 là thứ bảy.

33. Hàm AND() hoạt động trong Excel như thế nào?

AND() là hàm logic kiểm tra nhiều điều kiện và trả về TRUE hoặc FALSE dựa trên việc các điều kiện có được đáp ứng hay không.

Cú pháp: AND(logica1,[logic2],[logic3]....)

Trong ví dụ dưới đây, chúng ta đang kiểm tra xem marks có lớn hơn 45. Kết quả sẽ là true nếu mark >45, nếu không sẽ là false.

34. Giải thích cách hoạt động của hàm VLOOKUP trong Excel?

VLOOKUP được sử dụng khi bạn cần tìm mọi thứ trong bảng hoặc một phạm vi theo hàng.

VLOOKUP chấp nhận bốn tham số sau:

  • Lookup_value: là giá trị dùng để tìm kiếm
  • Table_array: là vùng điều kiện để dò tìm giá trị tìm kiếm
  • Col_index_num: Là thứ tự của cột cần lấy dữ liệu trên bảng giá trị cần tìm. Cột đầu tiên của vùng dữ liệu được tính là 1
  • Range_lookup: Là kiểu tìm kiếm, gồm 2 kiểu TRUE và FALSE. (Có thể có hoặc không)

TRUE:  Tương ứng với 1 là tìm kiếm tương đối

FALSE:  Tương ứng với 0 là tìm kiếm tuyệt đối tức Hàm VLOOKUP sẽ tìm kiếm những giá trị trùng khớp nhau hoàn toàn

Hãy cùng tìm hiểu về hàm VLOOKUP với ví dụ sau.

Nếu bạn muốn tìm bộ phận mà Stuart trực thuộc, bạn có thể sử dụng hàm Vlookup như hình dưới đây:

Ở đây, A11 là lookup value, A2: E7 là table array, 3 là column index number với thông tin về departments và 0 là range lookup.

Nếu bạn nhấn enter, nó sẽ trả về "Marketing", cho biết rằng Stuart đến từ bộ phận tiếp thị.

35. Bạn sẽ sử dụng hàm nào để nhận được ngày và thời gian hiện tại trong Excel?

Trong Excel, bạn có thể sử dụng hàm TODAY() và NOW() để nhận lại ngày và thời gian hiện tại.

36. Sử dụng bảng doanh số dưới đây, hãy tính tổng số lượng bán được của các đại diện bán hàng (sales representatives) có tên bắt đầu bằng chữ A và chi phí của từng mặt hàng (cost of each item) mà họ bán lớn hơn 10.

Bạn có thể sử dụng hàm SUMIFS() để tìm tổng số lượng.

Đối với cột Sales Rep, bạn cần đưa ra tiêu chí là “A *” - nghĩa là tên phải bắt đầu bằng chữ cái “A”. Đối với cột Cost each, tiêu chí phải là “> 10” - nghĩa là chi phí của mỗi mục lớn hơn 10.

Kết quả là 13.

37. Sử dụng dữ liệu cho dưới đây, tạo pivot table để tìm tổng doanh số bán hàng của mỗi đại diện bán hàng cho từng mặt hàng. Hiển thị doanh số bán hàng dưới dạng % của tổng số.

Chọn toàn bộ bảng, nhấp vào tab Insert và chọn PivotTable

Chọn phạm vi bảng và trang tính mà bạn muốn đặt pivot table

Kéo Sale total vào Values và Sales Rep và Item vào Row Labels. Nó sẽ cung cấp tổng doanh số của mỗi người đối với từng mặt hàng.

Nhấp chuột phải vào “Sum of Sale Total’ và mở rộng Show Values As để chọn % trong Grand Total.

Dưới đây là resultant pivot table.

Để phỏng vấn Data Analyst thành công, điều quan trọng là bạn phải chuẩn bị để trả lời hiệu quả các câu hỏi của nhà tuyển dụng. Vì những câu hỏi này rất phổ biến, người quản lý tuyển dụng và người phỏng vấn sẽ mong đợi bạn có thể trả lời chúng một cách trôi chảy và không do dự.

Bạn không cần phải ghi nhớ câu trả lời đến mức nói như một robot, hãy suy nghĩ về những gì bạn sẽ nói khi gặp những câu hỏi trên trong cuộc phỏng vấn. Thực hành với người khác để cảm thấy tự tin hơn khi trả lời những câu hỏi.

Đừng quên tham khảo thêm nhiều bài viết hay về dữ liệu trên trang Blog của 200Lab. Chúc bạn thành công phỏng vấn Data Analyst nhé!

Một vài bài viết bạn sẽ thích:

CSS: Sự khác nhau giữa Flexbox và Grid
Học Data Analyst ở đâu? Có gì trong Khoá học Đào tạo Phân tích Dữ liệu tại 200Lab
Backend Developer Là Gì? Lộ Trình Trở Thành Backend Developer
RabbitMQ là gì? RabbitMQ hoạt động như nào?
Internet of Things (IoT) là gì? Khám phá thế giới kết nối thông tin với IoT

Bài viết liên quan

Lập trình backend expressjs

xây dựng hệ thống microservices
  • Kiến trúc Hexagonal và ứng dụngal font-
  • TypeScript: OOP và nguyên lý SOLIDal font-
  • Event-Driven Architecture, Queue & PubSubal font-
  • Basic scalable System Designal font-

Đăng ký nhận thông báo

Đừng bỏ lỡ những bài viết thú vị từ 200Lab