Trước khi tìm hiểu về Google Colab là gì và sử dụng chúng ra sao thì bạn nên tham khảo bài viết Python là gì và Jupyter Notebook là gì trước nha. Vì chức năng chính của Google Colab là thay thế cho Jupyter Notebook, hỗ trợ bạn trong quá trình xử lý dữ liệu, gõ và thực thi các đoạn mã lệnh Python một cách dễ dàng và thuận tiện. Nhưng nếu bạn chưa đọc thì cũng không sao, mình sẽ cố gắng giải thích ngắn gọn các thuật ngữ, nội dung chi tiết như thế nào hãy cùng mình tìm hiểu trong bài viết sau đây nhé.
1. Google Colab là gì?
Colaboratory hay còn gọi là Google Colab, là một sản phẩm từ Google Research, nó cho phép thực thi các câu lệnh Python trên nền tảng đám mây, đặc biệt phù hợp với những bạn nào làm dự án (project) theo nhóm, hoặc muốn chia sẽ file code Python của mình với người khác.
Colab không yêu cầu cài đặt hay cần cấu hình máy tính mạnh, mọi thứ có thể chạy thông qua trình duyệt, bạn có thể sử dụng tài nguyên máy tính từ CPU tốc độ cao, GPUs hay TPUs đều được cung cấp cho bạn và đặc biệt là hoàn toàn miễn phí nếu bạn chọn option mặc định là CPU. Cá nhân mình rất thích Google Colab vì kể cả máy mình không đủ mạnh vẫn có thể sử dụng nó để viết code Python mà không cần phải cài đặt thêm bất kì phần mềm nào vào máy.
Giao diện của Google Colab rất giống với Jupyter Notebook - một công cụ giúp bạn chạy từng dòng lệnh Python một cách trực quan và kiểm tra kết quả câu lệnh ngay tại chỗ.
2. Tại sao nên sử dụng Google Colab
2.1 Các thư viện phổ biến được cài đặt sẵn
Bạn biết đấy, khi tự cài Python, Jupyter Notebook hay Anaconda (phần mềm tích hợp sẵn python và các bộ công cụ cho Data Analyst và Data Scientist) ở trên máy, bạn sẽ phải cài đặt thêm các thư viện python phổ biến như: Pandas, Keras, Tensorflow, Matplotlib, Numpy. Đây đều là những thư viện phù hợp cho việc tiền xử lý dữ liệu, phân tích dữ liệu và machine learning
2.2 Được lưu trữ trên đám mây
Như đã nói trước đó nếu bạn sử dụng Jupyter Notebook, các file Python sẽ được lưu trữ trên máy cá nhân, dẫn đến khó khăn trong việc chia sẽ nó với người khác, đặc biệt trong khi làm việc nhóm hoặc dự án trong team.
Giả sử code Python của bạn bị lỗi và muốn nhờ team leader review, bạn sẽ phải gửi file python qua tin nhắn, sau khi bạn ấy sửa xong thì sẽ gửi lại một file mới cho bạn. Vậy sao bạn không tạo một file Google Colab, file này sẽ được lưu trữ tại Google Drive, và cả hai có thể chỉnh sửa ngay trên đó, rất thuận tiện đúng không nào? Bạn hoàn toàn có thể thấy được lịch sử chỉnh sửa của người kia ở phần Revision History.
2.3 Sự hợp tác
Tính năng nổi trội khác mà Google Colab cung cấp chính là khả năng cộng tác với nhóm và nhiều người khác như đã nói ở trên. Bạn chỉ cần bấm nút share và điền email người bạn muốn cấp quyền, các quyền có sẵn sẽ là:
- Viewer: chỉ được xem
- Commenter: cho phép xem và comment
- Editor: Cho phép xem và chỉnh sửa file Google Colab
Người được mời sẽ nhận được email thông báo và click vào đường link là có thể truy cập được file, rất nhanh chóng và tiện lợi. Mình thường xuyên sử dụng nó để trả kết quả bài phỏng vấn Python, khi đó mình sẽ chọn option là Anyone with the link can view để chắc chắn là người phỏng vấn có thể mở được file.
2.4 Sử dụng GPU và TPU miễn phí,
Không cần phải suy nghĩ nhiều, khi chọn Google Colab thay vì Jupyter Notebook. Vì, Google Research cho phép bạn sử dụng GPU và TPU chuyên dụng của họ cho các dự án machine learning cá nhân của bạn.
Đối với một số dự án, gia tốc GPU và TPU tạo ra sự khác biệt rất lớn ngay cả đối với một số dự án nhỏ. Hình dưới đây là tài nguyên mà Google Colab cung cấp cho mình khi chạy các lệnh Python với RAM là 13GB, Ổ cứng là 127GB.
3. Hướng dẫn sử dụng Google Colab
Để sử dụng Colaboratory, bạn phải có tài khoản Google, sau đó truy cập Colaboratory bằng tài khoản của bạn vào được link: https://colab.research.google.com/
Dưới đây là các bước hướng dẫn bạn sử dụng Google Colab.
3.1 Tạo thư mục trên Google Drive
Vì Colab được lưu trữ trên Google Drive, vì thế bạn nên gom những file Colab này vào cùng một thư mục, để tránh sau này lưu trữ và chia sẽ nhầm file và folder. Trong giao diện Google Drive bạn nhấn New
để tạo ra một Folder mới và đặt tên cho nó.
3.2 Tạo Colab Notebook mới và đặt tên
Để tạo một Colab Notebook mới, bạn nhấp chuột phải => More
=> Colaboratory
Để đổi tên Notebook, bạn hãy nhấp vào tên tệp.
Sau đó mở file vừa tạo lên, bạn sẽ thấy giao diện như sau:
Bạn double click vào Title (mặc định là Untitiled) và tiến hành đổi tên file
3.3 Cài đặt GPU (nếu cần)
Phần cứng mặc định của Google Colab là CPU hoặc nó có thể là GPU.
Để cài đặt, bạn hãy hấp vào Edit
=> Notebook Setting
=> Hardware Accelerator
=> GPU
. Hoặc
Nhấp vào Runtime
=> Hardware Accelerator
=> GPU
3.4 Chạy một đoạn lệnh Python (cell)
- Bước 1: Để đảm bảo rằng bạn đã thiết lập môi trường chạy, hãy kiểm tra xem File colab có được kết nối với Runtime hay không, nếu có Notebook sẽ hiển thị dấu check màu xanh lá cây và Connected ở góc trên cùng bên phải.
- Bước 2: Tạo mới đoạn code mà bạn muốn chạy bằng cách nhấn vào +Code bên dưới menu File
- Bước 3: Viết đoạn code mà bạn muốn chạy vào ô đã tạo
- Bước 4: Nhấn nút Play hoặc tổ hợp phím Shift + Enter.
3.5 Chạy các Lệnh Bash
- Clone Repository Git
!git clone [git clone url]
- Lệnh thư mục !ls, !mkdir.
!ls
- Lệnh này xuất ra các thư mục (folders)/nội dung (content) /ổ đĩa (drive). Sử dụng câu lệnh sau để thay đổi thư mục hiện tại.
import sys
sys.path.append(‘[Folder name]’)
- Tải xuống từ Web
!wget [url] -p drive/[Folder Name]
3.6 Cài đặt thư viện
Các thư viện Python phổ biếnđều được cài đặt sẵn, nếu bạn muốn cài đặt các thư viện chưa sẵn có bạn có thể sử dụng cú pháp:
!pip install [package name]
Hoặc apt-get để cài đặt các thư viện Linux:
!apt-get install [package name]
3.7 Upload file dữ liệu lên Google Colab
Việc upload file từ máy cá nhân lên Google Colab được thực hiện đơn giảng qua các bước sau:
- Bước 1: Truy xuất Hình tập tin ở menu phía bên trái, nếu bạn không thấy menu này hãy click vào dấu ba chấm bên góc trái phía trên
- Bước 2: Kéo file bạn muốn upload và thả vào khung này
- Bước 3: Nhấn chuột phải chọn refresh để thấy file
3.8 Liên kết Google Drive vào Google Colab
Nhu cầu liên kết Google Drive vào Google Colab có thể gọi là một công việc mà bất cứ project nào mình cũng phải làm vì nhiều lợi ích như sau:
- File kết quả và File Data đầu vào sẽ không vô ý bị xoá mất (phân quyền)
- Chia sẽ dễ dàng giữa các thành viên trong nhóm thay vì thay phiên lưu trữ ở máy cá nhân
- File dữ liệu nặng có thể được đọc một cách nhanh chóng không cần phải chờ đợi upload dữ liệu, Google Colab khuyên bạn không lên upload Data quá nặng lên vì sau khi 30 phút không sử dụng, chúng sẽ bị google xoá đi, rất bất tiện nếu bạn phải upload lên nhiều lần vì khoản thời gian chờ đợi là rất dài.
Để liên kết bạn thực hiện theo hướng dẫn sau:
- Bước 1: Tạo một cell Code mới, để con trỏ chuột tại cell đó và chọn Mount Drive trong mục Files ở menu bên trái
- Bước 2: Chạy đoạn code mà Google Colab tạo mới như trên hình bên dưới
- Bước 3: Cấp quyền truy cập cho Google Colab vào Google Drive, nhớ tích chọn (Select All) tất cả các quyền yêu cầu ở mà hình đăng nhập
- Bước 4: Kết nối thành công thì Colab sẽ hiển thị như sau
3.9 Lưu trữ Colab Notebook
Tất cả Notebook sẽ được lưu trong ổ đĩa Google tự động sau một khoảng thời gian nhất định. Ngoài ra, bạn có thể lưu Notebook kết thức bằng *.py và *.ipynb một cách rõ ràng như hình bên dưới
3.10 Chia sẻ Colab Notebook
Bạn có thể chia sẻ Colab Notebook với những người khác.
Bạn nhấp vào nút Share
, nó sẽ hiển thị tùy chọn để tạo một liên kết có thể chia sẻ thông qua bất kỳ nền tảng nào. Ngoài ra còn có một tùy chọn để mời mọi người thông qua địa chỉ email.
Đây được xem là một trong những tính năng nổi bật của Google Colab.
4. Kết luận
Mong là thông qua bài viết này, bạn đã nắm được một số điểm chính về Google Colab, cá nhân mình thấy nó vô cùng hữu ích, từ ngày biết đến công cụ này mình toàn dùng nó để viết code Python, xử lý dữ liệu, Demo và làm việc với các bạn khác trong Team.
Nếu bạn có định hướng trở thành Data Analyst chuyên nghiệp thì bạn có thể tham khảo bộ khóa học toàn diện chuyên nghiệp với combo 3 khóa học trong 1 bootcamp của 200Lab tại đây.
Bài viết liên quan:
Bài viết liên quan
Database (Cơ sở dữ liệu) là gì? Những loại Database phổ biến nhất hiện nay
Sep 01, 2024 • 11 min read
Python là gì? Những đặc điểm nổi bật và Ứng dụng của Python
Aug 28, 2024 • 14 min read
Ứng dụng Hypothesis Testing - Kiểm định giả thuyết trong Y học
Jul 18, 2024 • 8 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí - Phần 2
Jun 24, 2024 • 6 min read
Hướng dẫn cách lấy dữ liệu Facebook Ads Tự động Mỗi ngày Miễn phí- Phần 1
Jun 24, 2024 • 11 min read
Khám phá Time Series Analysis - Phần 2
May 21, 2024 • 10 min read