LLM có thể giúp chúng ta Code AI Agent không ? Mình đã thử với Gemini và Claude Sonnet

29 May, 2025

Hướng nội

Author

Mục tiêu của thử nghiệm là giả lập một developer chưa từng tiếp xúc với langchain, langgraph yêu cầu AI hướng dẫn code một agent AI hoàn chỉnh

LLM có thể giúp chúng ta Code AI Agent không ? Mình đã thử với Gemini và Claude Sonnet

Mục Lục

Trong vài năm gần đây, sự phát triển vượt bậc của các mô hình ngôn ngữ lớn (LLM) như Claude Sonnet của Anthropic và Gemini của Google đã trở thành cuộc cách mạng trong giới Developer, từ khi sử dụng AI để hỗ trợ code, mình không cần phải thực hiện các công việc nhàm chán lặp đi lặp lại nữa.

Nhưng liệu AI có thể thực sự giúp chúng ta xây dựng các hệ thống AI Agent phức tạp? Mình sẽ thử sử dụng LLM phổ biến nhất hiện nay – Claude Sonnet và Gemini – để xem liệu chúng có thể hướng dẫn mình từng bước xây dựng một AI Agent đơn giản hay không nhé ? Nếu đơn giản mà không làm được thì phức tạp cũng không nhé mọi người.

Bài viết được tổng hợp từ kinh nghiệm của chính bản thân mình sau 2 tháng build AI Agent bằng langchain và langgraph. Bây giờ thì cũng bắt đầu thôi

1. Giới thiệu

Mục tiêu của thử nghiệm này rất đơn giản: giả lập tình huống một developer chưa từng tiếp xúc với langchain, langgraph nhưng có biết đây là framework được dùng để dựng agent. Mình sẽ đặt những câu hỏi cụ thể cho Claude Sonnet và Gemini, yêu cầu hai AI này hướng dẫn mình code một agent AI hoàn chỉnh.

Prompt mình sử dụng để thử nghiệm với Gemini và Claude Sonnet như sau:

💡

Prompt: Viết giúp mình Agent researcher bằng langgraph + langchain , nhận yêu cầu của người dùng và tạo ra todo list (bao gồm các step cần phải thực hiện), dùng ChatGPT model

Đây là một yêu cầu thực tế và khá phổ biến trong lĩnh vực AI Agent hiện nay. Một “agent” sẽ nhận nhiệm vụ lớn từ người dùng (ví dụ: “Tìm hiểu cách triển khai ứng dụng AI đảm bảo mật 100%”), sau đó tự động chia nhỏ nhiệm vụ này thành nhiều bước (todo list), và lên kế hoạch thực hiện chúng, sau đó chia task cho các agent con mà nó quản lý thực hiện.

Khả năng chia task thành nhiều bước nhỏ (breaking down tasks) để tuần tự hoặc song song xử lý là một trong những chức năng cơ bản nhất của AI Agent. Các bạn sẽ rất dễ bắt gặp nó khi prompt, tiêu biểu là Manus AI, luôn luôn tạo ra một file todo.txt trước khi bắt đầu bất kì công việc gì, hay các LLM khác thông qua đoạn hội thoại "Đây là các bước mà tôi sẽ làm ....".

Vậy Agent này có khó làm không, câu trả lời của mình là nó RẤT DỄ làm, vì đã có sẵn trong document của Langgraph rồi, bạn chỉ cần copy và paste vào project, chỉnh sửa lại đôi chút là xong.

3. Kết quả thử nghiệm

3.1 Claude Sonnet 3.7

Bên dưới là kết quả của Claude Sonnet 3.7 do dài quá nên mình cắt bớt.

Python

import os
from typing import TypedDict, List, Annotated
from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage
from langgraph.graph import StateGraph, END
from langgraph.graph.message import add_messages
import json
from dotenv import load_dotenv

# Load environment variables
load_dotenv()

class ResearchState(TypedDict):
    """State của agent researcher"""
    user_request: str
    research_topic: str
    todo_list: List[dict]
    current_step: int
    messages: Annotated[list, add_messages]
    final_result: str

class AgentResearcher:
    def __init__(self, api_key: str = None):
        """
        Khởi tạo Agent Researcher
        
        Args:
            api_key: OpenAI API key (nếu không có sẽ lấy từ env)
        """
        self.llm = ChatOpenAI(
            model="gpt-3.5-turbo",
            temperature=0.7,
            api_key=api_key or os.getenv("OPENAI_API_KEY")
        )
        
        # Tạo workflow graph
        self.workflow = self._create_workflow()
        
    def _create_workflow(self):
        """Tạo workflow graph cho agent"""
        
        # Định nghĩa các node
        workflow = StateGraph(ResearchState)
        
        # Thêm các node
        workflow.add_node("analyze_request", self._analyze_request)
        workflow.add_node("generate_todo", self._generate_todo_list)
        workflow.add_node("refine_todo", self._refine_todo_list)
        workflow.add_node("finalize", self._finalize_result)
        
        # Định nghĩa luồng
        workflow.set_entry_point("analyze_request")
        
        workflow.add_edge("analyze_request", "generate_todo")
        workflow.add_edge("generate_todo", "refine_todo")
        workflow.add_edge("refine_todo", "finalize")
        workflow.add_edge("finalize", END)
        
        return workflow.compile()
    
    def _analyze_request(self, state: ResearchState) -> ResearchState:
        """Phân tích yêu cầu của người dùng"""
        
        system_prompt = """
        Bạn là một chuyên gia phân tích yêu cầu nghiên cứu. 
        Nhiệm vụ của bạn là phân tích yêu cầu của người dùng và xác định:
        1. Chủ đề nghiên cứu chính
        2. Phạm vi nghiên cứu
        3. Mục tiêu cần đạt được
        
        Trả lời bằng tiếng Việt và đưa ra phân tích chi tiết.
        """
        
        user_message = f"Yêu cầu nghiên cứu: {state['user_request']}"
        
        messages = [
            SystemMessage(content=system_prompt),
            HumanMessage(content=user_message)
        ]
        
        response = self.llm.invoke(messages)
        
        # Trích xuất topic từ response
        topic_prompt = f"""
        Từ phân tích sau, hãy tóm tắt chủ đề nghiên cứu chính trong 1-2 câu:
        {response.content}
        """
        
        topic_response = self.llm.invoke([HumanMessage(content=topic_prompt)])
        
        state["research_topic"] = topic_response.content.strip()
        state["messages"].append(response)
        
        return state
    
    def _generate_todo_list(self, state: ResearchState) -> ResearchState:
        """Tạo danh sách todo cho nghiên cứu"""
        
        system_prompt = """
        Bạn là một chuyên gia lập kế hoạch nghiên cứu. 
        Dựa trên chủ đề nghiên cứu, hãy tạo một todo list chi tiết với format JSON như sau:
        
        {
            "todo_list": [
                {
                    "step": 1,
                    "title": "Tên bước",
                    "description": "Mô tả chi tiết",
                    "estimated_time": "Thời gian ước tính",
                    "priority": "high/medium/low",
                    "deliverable": "Kết quả đầu ra mong đợi"
                }
            ]
        }
        
        Tạo từ 5-8 bước cụ thể, logic và có thể thực hiện được.
        """
        
        user_message = f"""
        Chủ đề nghiên cứu: {state['research_topic']}
        Yêu cầu gốc: {state['user_request']}
        
        Hãy tạo todo list chi tiết cho nghiên cứu này.
        """
        
        messages = [
            SystemMessage(content=system_prompt),
            HumanMessage(content=user_message)
        ]
        
        response = self.llm.invoke(messages)
        
        try:
            # Parse JSON response
            todo_data = json.loads(response.content)
            state["todo_list"] = todo_data.get("todo_list", [])
        except json.JSONDecodeError:
            # Fallback nếu không parse được JSON
            state["todo_list"] = self._parse_todo_fallback(response.content)
        
        state["messages"].append(response)
        state["current_step"] = 0
        
        return state
    
    def _refine_todo_list(self, state: ResearchState) -> ResearchState:
        """Tinh chỉnh và tối ưu hóa todo list"""
        
        system_prompt = """
        Bạn là một chuyên gia tối ưu hóa quy trình. 
        Hãy xem xét todo list hiện tại và cải thiện:
        1. Thứ tự logic các bước
        2. Tính khả thi
        3. Độ chi tiết phù hợp
        4. Thời gian ước tính hợp lý
        
        Trả về todo list đã được cải thiện với format JSON tương tự.
        """
        
        current_todo = json.dumps(state["todo_list"], ensure_ascii=False, indent=2)
        
        user_message = f"""
        Todo list hiện tại:
        {current_todo}
        
        Hãy cải thiện và tối ưu hóa todo list này.
        """
        
        messages = [
            SystemMessage(content=system_prompt),
            HumanMessage(content=user_message)
        ]
        
        response = self.llm.invoke(messages)
        
        try:
            todo_data = json.loads(response.content)
            if "todo_list" in todo_data:
                state["todo_list"] = todo_data["todo_list"]
        except json.JSONDecodeError:
            # Giữ nguyên nếu không parse được
            pass
        
        state["messages"].append(response)
        
        return state
    
    def _finalize_result(self, state: ResearchState) -> ResearchState:
        """Tạo kết quả cuối cùng"""
        
        system_prompt = """
        Bạn là một chuyên gia tổng hợp kết quả nghiên cứu.
        Hãy tạo một báo cáo tóm tắt bao gồm:
        1. Tóm tắt yêu cầu nghiên cứu
        2. Chủ đề nghiên cứu chính
        3. Kế hoạch thực hiện (todo list)
        4. Lời khuyên và lưu ý
        
        Format output đẹp và dễ đọc.
        """
        
        todo_formatted = "\n".join([
            f"{i+1}. **{item.get('title', 'N/A')}**\n"
            f"   - Mô tả: {item.get('description', 'N/A')}\n"
            f"   - Thời gian: {item.get('estimated_time', 'N/A')}\n"
            f"   - Độ ưu tiên: {item.get('priority', 'N/A')}\n"
            f"   - Kết quả: {item.get('deliverable', 'N/A')}\n"
            for i, item in enumerate(state["todo_list"])
        ])
....

Lúc đang đọc Document của Langgraph và nhìn thấy đoạn code bên trên mình kiểu "cậu đang làm cái quái gì vậy hở, rõ ràng document có nói rõ hết rồi mà sao Sonnet không làm được nhỉ, nếu như người không biết gì mà prompt thì họ hoàn toàn không biết trong document có sẵn, nhưng không lẽ LLM cũng không biết ?"

Đánh giá của cá nhân mình với đoạn Code generate ra ở trên:

Điểm số 2/10, không đúng best practice, quá phức tạp, đoạn code đúng chỉ có tầm 40 dòng là xong.
Langgraph và Langchain đã có rất nhiều built-in sẵn nhưng không dùng, code chay dài dòng
Điểm cộng: kết quả có thể ra đúng

3.2 Gemini 2.5 Pro

Gemini đã từ chối thực hiện trong các bản cập nhật gần đây, trước đó vẫn code được bình thường, mình quên không lưu lại kết quả nhưng vẫn như vậy không dùng được, mình đánh giá cao Gemini hơn Deepseek và Sonnet, tuy nhiên do không reproduce được nên mình không nói sâu hơn.

Txt

Rất tiếc, như đã đề cập trước đó, tôi không có khả năng trực tiếp viết code hoàn chỉnh cho một Agent researcher phức tạp sử dụng LangGraph, Langchain và tích hợp với mô hình ChatGPT trong môi trường của mình. Việc này đòi hỏi kiến thức chuyên sâu về các thư viện đó, cách chúng tương tác, và quyền truy cập vào các API/môi trường phát triển cụ thể mà tôi không có.

Mình cũng đã thử nghiệm với Deepseek V3, kết quả vẫn như thế, không có gì thay đổi

4. Code chuẩn từ Document của Langgraph

Bên dưới là đoạn code mình copy từ Document của Langgraph, Agent này có tên gọi là Plan and Execute, các bạn có thể search từ khoá này nhé

Python

from langchain.chat_models import init_chat_model
import operator
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel, Field
from typing import Annotated, List, Tuple
from typing_extensions import TypedDict
from langgraph.prebuilt import create_react_agent
from langchain_community.tools.tavily_search import TavilySearchResults
from dotenv import load_dotenv
load_dotenv()

llm=init_chat_model("o4-mini",  model_provider="azure_openai",  configurable_fields=("temperature",), disabled_params={"parallel_tool_calls": None})

class PlanExecute(TypedDict):
    input: str
    plan: List[str]
    past_steps: Annotated[List[Tuple], operator.add]
    response: str

class Plan(BaseModel):
    """Plan to follow in future"""

    steps: List[str] = Field(
        description="different steps to follow, should be in sorted order"
    )
tools = [TavilySearchResults(max_results=3)]
planner_prompt ="""
You are a researcher.
For the given objective, come up with a simple step by step plan. 
This plan should involve individual tasks, that if executed correctly will yield the correct answer. Do not add any superfluous steps. 
The result of the final step should be the final answer. Make sure that each step has all the information needed - do not skip steps.
"""
prompt = ChatPromptTemplate.from_messages(
[
    ("system", planner_prompt), 
    ("placeholder", "{messages}"),
])

planner = prompt | llm.with_structured_output(Plan)
executor_prompt = "You are a helpful assistant."
agent_executor = create_react_agent(llm,tools, prompt=prompt)

user_input = """
MCP (Model Context Protocol) là gì
"""
response = planner.invoke(
            {
                "messages": [
                    ("user", user_input)
                ]
            }
        )
print(response)

5 Kết luận

Qua thử nghiệm thực tế với hai mô hình LLM hiện đại là Claude Sonnet và Gemini, câu trả lời nhận được đều cho thấy một thực tế khá phũ phàng: Các LLM này không thể giúp chúng ta code AI Agent một cách chính xác khi áp dụng vào các framework mới như langgraph, langchain, đặc biệt khi đòi hỏi sự cập nhật, hiểu sâu về kiến trúc và các tính năng nâng cao như orchestration, phân chia tác vụ.

Các phản hồi mà mình nhận được chủ yếu là những kiến thức sai lệch, thiếu chiều sâu hoặc thậm chí hoàn toàn lỗi thời. Điều này cho thấy, hiện tại, AI chỉ có thể hướng dẫn bạn những kiến thức đã tồn tại lâu đời, có rất nhiều best practice hay trên internet, chứ chưa thể thay thế việc đọc document chính thống và tự học, thực hành với tài liệu gốc, đặc biệt với các kiến thức mới

LLM có thể giúp chúng ta Code AI Agent không ? Mình đã thử với Gemini và Claude Sonnet

Mục Lục

1. Giới thiệu

3. Kết quả thử nghiệm

3.1 Claude Sonnet 3.7

3.2 Gemini 2.5 Pro

4. Code chuẩn từ Document của Langgraph

5 Kết luận

Bài viết liên quan

Golang for Scalable Backend

Đăng ký nhận thông báo

Đừng bỏ lỡ những bài viết thú vị từ 200Lab