LM Studio: Công cụ chạy LLM Local Nhanh chóng Dễ dàng cho Developer
12 Mar, 2025
Hướng nội
AuthorLM Studio là một ứng dụng desktop được thiết kế đặc biệt cho developers, giúp bạn dễ dàng tải, chạy và tương tác với các mô hình ngôn ngữ lớn

Mục Lục
Nếu bạn từng gặp những vấn đề dưới đây, thì LM Studio chính là giải pháp phù hợp:
- Tốn quá nhiều thời gian cài đặt và cấu hình các thư viện AI phức tạp như llama.cpp
- Lo ngại về chi phí cao khi sử dụng API từ các dịch vụ AI trên cloud
- Cần xử lý dữ liệu nhạy cảm ngay trên máy tính, không muốn gửi ra bên ngoài
- Muốn một giải pháp hoạt động độc lập, không phụ thuộc vào internet
- Đang tìm kiếm cách nhanh chóng và đơn giản để thử nghiệm và tích hợp LLM vào dự án
Vậy LM Studio là gì? Hãy cùng mình tìm hiểu trong bài viết sau đây nhé
1. LM Studio là gì?
LM Studio là một ứng dụng desktop được thiết kế đặc biệt cho developers, giúp bạn dễ dàng tải, chạy và tương tác với các mô hình ngôn ngữ lớn (LLM) ngay trên máy tính cá nhân. Mục tiêu của LM Studio là đơn giản hóa quá trình làm việc với LLM, loại bỏ những rào cản kỹ thuật phức tạp như cấu hình llama.cpp, xử lý GPU, hoặc các vấn đề tương thích phần cứng.

Ứng dụng này tập trung vào việc mang đến một hệ sinh thái AI hoàn chỉnh với ba tính năng cốt lõi:
- Quản lý mô hình: Giao diện trực quan, hỗ trợ khám phá, tải xuống và quản lý các mô hình ngôn ngữ.
- Giao diện chat: Cho phép tương tác trực tiếp với model để thử nghiệm và tinh chỉnh prompt một cách nhanh chóng.
- API server: Hoàn toàn tương thích với OpenAI API, sẵn sàng để tích hợp vào các ứng dụng của bạn mà không cần sửa lại codebase.
Với LM Studio, developers có thể dễ dàng làm việc với AI mà không cần lo ngại về các vấn đề kỹ thuật cồng kềnh, tăng tốc quá trình phát triển và thử nghiệm các ứng dụng AI.
2. Hướng dẫn Cài đặt và Sử dụng LM Studio
2.1 Cài đặt LM Studio
- Truy cập trang web chính thức: https://lmstudio.ai
- Nhấn vào nút "Download" ở góc trên bên phải
- Chọn phiên bản phù hợp với hệ điều hành của bạn
- Tiến hành cài đặt theo hướng dẫn

# Yêu cầu hệ thống tối thiểu:
- RAM: 8GB (khuyến nghị 16GB hoặc cao hơn)
- Dung lượng ổ cứng: 10GB cho ứng dụng và mô hình cơ bản
- GPU: Không bắt buộc, nhưng khuyến khích có GPU với ít nhất 4GB VRAM
2.2 Tải xuống Model
- Mở ứng dụng LM Studio, ở thanh Menu bên trái chọn Discover.
- Input tên model muốn tìm kiếm và chọn Enter
- Chọn model muốn chọn Download ở góc phải bên dưới, LM Studio cũng sẽ hiển thị độ lớn của model tại nút Download này.
- Các bạn có thể bắt đầu với các model nhỏ khoảng 8B tham số của Llama 3 hoặc Deepseek. Dưới đây là một vài gợi ý lựa chọn mô hình phù hợp với cấu hình máy:
- CPU/RAM 8GB: Mô hình 7B-8B (2-bit hoặc 4-bit quantized)
- GPU 6-8GB VRAM: Mô hình 7B-13B (4-bit quantized)
- GPU 16GB+ VRAM: Mô hình lớn hơn (13B+ với 8-bit quantized)


2.3 Tương tác với Model qua Giao diện Chat
- Sau khi đã tải xong Model, các bạn click vào phần
Select a model to Load
ở góc trên màn hình và chọn Model mà bạn đã Download ở phần trước. - LM Studio cung cấp các thông số để bạn tùy chỉnh như tài nguyên sử dụng, độ dài context, ... Nếu bạn mới bắt đầu làm quen với mô hình và muốn kiểm tra xem Model có phù hợp với nhu cầu của mình hay không, bạn có thể sử dụng các thiết lập mặc định mà không cần thay đổi gì.





- Bạn chọn
Load Model
vàCreate a New Chat
, bây giờ bạn đã có thể chat với mô hình LLM như ảnh minh hoạ ở trên.
2.3 Khởi tạo API Server
Trong phần này, mình sẽ hướng dẫn cách sử dụng LM Studio để khởi chạy một API server. Ở bước tiếp theo, bạn có thể gọi API này tương tự như khi làm việc với API của OpenAI mà không cần chỉnh sửa code hiện tại.
- Chuyển sang Tab Developer, các bạn sẽ thấy Model lúc nãy mà chúng ta sử dụng ở đây.
- Ở góc trên bên trái (Status: Stopped), các bạn gạt nút sang phải để Model chuyển sang trạng thái Running và Ready tại port 1234 như hình bên dưới.


2.4 Gọi API đơn giản với Client OpenAI
Đoạn code này sử dụng thư việnopenai
để gửi yêu cầu tới server local của LM Studio, thay vì gọi OpenAI API thực sự.
- Bạn chỉ cần cấu hình
base_url
là địa chỉ của server LM Studio (http://localhost:1234/v1
), và mọi yêu cầu sẽ được xử lý trên máy local. api_key
không cần thiết phải truyền vào, bạn có thể đặt bất kỳ giá trị nào vì LM Studio không yêu cầu xác thực.- Phương thức gọi API vẫn giống hệt cách làm việc với OpenAI API, nên bạn không cần thay đổi logic code khi tích hợp LM Studio vào dự án của mình.
import openai
# Cấu hình client OpenAI để kết nối với LM Studio local server
client = openai.OpenAI(
api_key="api_key", # API key có thể là bất kỳ giá trị nào
base_url="http://localhost:1234/v1" # Địa chỉ server LM Studio
)
# Gọi API chat completion - giống hệt cách gọi API OpenAI
response = client.chat.completions.create(
model="local-model", # Tên model không quan trọng khi dùng LM Studio
messages=[
{"role": "system", "content": "Bạn là một trợ lý lập trình Python chuyên nghiệp."},
{"role": "user", "content": "Viết một class Python để quản lý danh sách công việc cần làm (todo list)."}
],
temperature=0.7,
max_tokens=1000
)
# In kết quả
print(response.choices[0].message.content)
2.5 Sử dụng SDK LM Studio chính thức
# Cài đặt SDK LM Studio
# pip install lmstudio
from lmstudio.llms import LLM
# Khởi tạo mô hình (tự động sử dụng mô hình đã tải trong LM Studio)
# Lưu ý: Xác định chính xác ID mô hình từ LM Studio
llm = LLM("meta-llama/Llama-3-8b-instruct-q4_k_m")
# Chat đơn giản
response = llm.chat([
{"role": "system", "content": "Bạn là một trợ lý lập trình Python chuyên nghiệp."},
{"role": "user", "content": "Viết một class Python để quản lý danh sách công việc cần làm (todo list)."}
])
print(response.choices[0].message.content)
# Streaming response - hiển thị kết quả theo thời gian thực
print("
--- Streaming Response ---
")
for chunk in llm.chat_stream([
{"role": "system", "content": "Bạn là một trợ lý lập trình Python chuyên nghiệp."},
{"role": "user", "content": "Viết một hàm để đọc và phân tích file CSV."}
]):
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
3. Kết luận
LM Studio đã thay đổi hoàn toàn cách các developer tiếp cận và làm việc với các mô hình ngôn ngữ lớn. Thay vì đối mặt với các thách thức kỹ thuật phức tạp và chi phí API đắt đỏ, developer giờ đây có thể triển khai LLM trên local chỉ trong vài phút, với giao diện trực quan và API server hoàn toàn tương thích với OpenAI.