10 dự án Data Analytics hàng đầu

GIỚI THIỆU

Thế giới dữ liệu và AI mang lại nhiều công cụ khoa học, thuật toán, quy trình... để xác định các mẫu có ý nghĩa từ dữ liệu có cấu trúc cũng như phi cấu trúc. Công việc phân tích dữ liệu đang phát triển mạnh mẽ cùng nhiều đổi mới trong lĩnh vực trí tuệ nhân tạo.

Nếu muốn có một nền tảng Data Analytics vững chắc thì bạn cần có một portfolio chứa các dự án data analytics. Vì thế trong bài viết này chúng tôi đưa ra các ý tưởng dự án data analytics phù hợp cho người mới bắt đầu cũng như những người đang ở trình độ trung cấp trở lên. Nếu là sinh viên, bạn cũng có thể áp dụng những ý tưởng đó vào dự án phân tích dữ liệu của mình.

DỰ ÁN DATA ANALYTICS (DỄ, TRUNG BÌNH, KHÓ)

Để bắt đầu với các dự án data analytics, trước tiên bạn cần phải hiểu mình đang ở cấp độ nào và sau đó bắt tay vào làm các dự án ở cấp độ đó. Vậy chúng ta hãy cùng nhau tìm hiểu về 3 cấp độ dưới đây:

Cấp độ người mới bắt đầu - Nếu bạn là người mới, bạn nên xem qua các ví dụ về dự án phân tích dữ liệu ở cấp độ dễ. Các dự án này không nặng về các kỹ thuật ứng dụng, các thuật toán đơn giản trong dự án sẽ giúp bạn dễ dàng tiến lên phía trước.

Trình độ trung cấp - Tại đây, các dữ liệu từ trung bình đến lớn được thu thập và bạn cần có nền tảng vững chắc về các dự án data mining cùng với các kỹ thuật machine learning. Nếu bạn đã thành thạo những điều này thì bạn có thể làm việc với các dự án ở trình độ trung cấp.

Chuyên gia - Phần này dành cho các chuyên gia trong ngành nơi cần làm việc với mạng nơ-ron và high-dimensional data. Nếu bạn biết kết hợp giữa sự sáng tạo và chuyên môn, thì các dự án nhỏ trong phần nâng cao là dành cho bạn.

1. DỰ ÁN DỄ

Fake News Detection (phát hiện tin tức giả) - Nếu bạn biết python thì bạn có thể phát triển dự án phân tích dữ liệu bằng ngôn ngữ này. Dự án có thể phát hiện những tin tức sai sự thật được tạo ra với mục đích chính trị. Tin tức này được truyền thông qua các kênh và các phương tiện trực tuyến khác. Mô hình được xây dựng bằng ngôn ngữ python có thể phát hiện chính xác tính xác thực của tin tức. Bạn có thể sử dụng PassiveAggressionClassifier để tạo TfidfVectorizer có thể phân loại tin tức thành "giả" hoặc "thật".

Dự án EDA (phân tích dữ liệu thăm dò) - Đây là điều đầu tiên mà một nhà phân tích dữ liệu cần làm. Trong dự án này, bạn cần xem xét dữ liệu để nhận dạng và xác định các mẫu. Sử dụng các kỹ thuật mô hình hóa dữ liệu (data modeling), bạn có thể cung cấp bản tóm tắt về các tính năng tổng thể của phân tích dữ liệu. EDA có thể được thực hiện với sự trợ giúp của đồ họa hoặc không. Bạn cũng có thể sử dụng các đại lượng đơn biến hoặc song biến để thực hiện EDA. Cộng đồng IBM Analytics là một nguồn tài nguyên quý giá nếu bạn muốn nghiên cứu sâu hơn về dự án EDA.

Sentiment analysis (phân tích quan điểm) - Phân tích này được sử dụng rộng rãi trong các cộng đồng trực tuyến để quản lý danh tiếng của bất kỳ thương hiệu nào hoặc phân tích đối thủ cạnh tranh bằng cách sử dụng framework R. Dự án phân tích dữ liệu này sẽ tìm cách để thấu hiểu ý kiến và cảm xúc của người xem dựa trên những từ ngữ họ sử dụng. Trong cách phân loại này, các class là nhị phân (tích cực hoặc tiêu cực) hoặc nhiều hơn nữa (vui, tức giận, buồn, bối rối, ghê tởm, v.v.). Bạn có thể sử dụng package “janeaustenR” với dataset có liên quan. Sử dụng các từ vựng có mục đích chung như bing, Loughran và AFINN và thực hiện phép nối bên trong, bạn có thể xây dựng một word cloud cho phần trình bày cuối của báo cáo.

Color Detection Project (dự án phát hiện màu) - Đây là một dự án phân tích dữ liệu dành cho sinh viên, nơi họ có thể xây dựng một interactive app để phát hiện màu đã chọn từ hình ảnh. Nhiều người trong chúng ta không thể phân biệt hoặc nhớ tên màu vì có khoảng 16 triệu màu dựa trên các giá trị RGB.

2. DỰ ÁN TRUNG BÌNH

Chatbots - Chatbots là một công cụ cực kỳ hữu ích trong các doanh nghiệp vì lượng lớn các truy vấn và tin nhắn của khách hàng có thể được chatbots xử lý để không làm chậm trễ các hoạt động kinh doanh. Ba trụ cột chính của việc thiết kế một chatbot là AI, Data Science và Machine Learning. Chatbots có thể được đào tạo bằng cách sử dụng mạng nơ-ron lặp lại cùng với dataset JSON. Việc triển khai chính có thể được thực hiện bằng python.

Handwritten digit recognition (nhận dạng chữ số viết tay) - Những người đam mê machine learning sử dụng MNIST datasets chứa các chữ số viết tay. Bạn sử dụng mạng nơ-ron phức hợp và thực hiện dự đoán real-time các chữ số được vẽ trên graphical UI (giao diện đồ họa người dùng).

Gender and Age detection (phát hiện giới tính và độ tuổi) - Bạn có thể xây dựng dự án phân tích dữ liệu thú vị này bằng python, dự án có thể dự đoán giới tính và tuổi tác chỉ bằng cách phân tích một hình ảnh. Bạn cần biết về thị giác máy tính (computer vision) và các nguyên tắc để thực hiện dự án này.

3. DỰ ÁN NÂNG CAO

Movie recommendation system (hệ thống giới thiệu phim) - Khái niệm giới thiệu phim rất phức tạp và dựa trên phương pháp click trừu tượng. Dự án yêu cầu triển khai rất nhiều machine learning và truy cập vào tập dữ liệu khổng lồ bao gồm lịch sử duyệt phim, sở thích của người dùng, v.v. Bạn sẽ cần sử dụng Collaborative Filtering (lọc cộng tác) để biết được hành vi của người dùng và R Framework cùng với MovieLens dataset là một lựa chọn phù hợp cho các dự án như vậy. Để chuyển thông qua các dataset, bạn cũng có thể sử dụng surprise model selection và matrix factorization. Các thương hiệu như NetFlix sử dụng phương pháp này và nó cũng rất khó khăn đối với các chuyên gia trong ngành.

Credit Card Fraud Detection (phát hiện gian lận thẻ tín dụng) - Một dự án phân tích dữ liệu bạn cần làm việc với cây quyết định (decision trees), gradient boosting classifier, logistic regression và artificial neural network (mạng Nơ Ron nhân tạo). Bằng cách sử dụng tập dữ liệu giao dịch thẻ, bạn có thể phân loại các giao dịch trên thẻ tín dụng ra gian lận hay không.

Customer Segmentation (phân khúc khách hàng) - Đây là một trong những dự án phân tích dữ liệu phổ biến nhất trong các công ty vì họ cần tạo nhiều nhóm khách hàng khác nhau khi bắt đầu bất kỳ chiến dịch nào. Dự án này được thực hiện bởi unsupervised learning và clustering để xác định các phân khúc khách hàng khác nhau. Khách hàng được chia thành các nhóm dựa trên độ tuổi, giới tính, sở thích, thói quen chi tiêu,… Điều này được thực hiện để tiếp thị đến từng nhóm hiệu quả hơn. Bạn có thể sử dụng K-means clustering và trực quan hóa sự phân bố giới tính và tuổi tác.

KẾT:

Hy vọng những dự án ở trên góp phần giúp con đường sự nghiệp của bạn trở nên suôn sẻ hơn. Thông qua chúng, bạn có thể thể hiện các kỹ năng của mình và cảm thấy tự tin hơn. Có thể bạn cho rằng các dự án phân tích cần phức tạp nhưng không phải vậy. Bạn có thể bắt đầu với cấp độ cho người mới bắt đầu và sau đó chuyển sang các cấp độ cao hơn để xây dựng portfolio của mình.

Bài viết được dịch từ đây.

Nếu bạn có định hướng trở thành Data Analyst chuyên nghiệp thì bạn có thể tham khảo bộ khóa học toàn diện chuyên nghiệp với combo 4 khóa học trong 1 bootcamp của 200Lab tại đây.

Ngoài ra, bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!