1. Researcher tại Apple đã nói gì?
Các nhà nghiên cứu tại Apple đã gây chấn động trong lĩnh vực AI với một tuyên bố táo bạo: các mô hình ngôn ngữ lớn (LLM) - công nghệ cốt lõi của các công cụ như ChatGPT hay Llama - có thể không thông minh như những gì chúng ta vẫn nghĩ. Trong một nghiên cứu gần đây, họ cho rằng khả năng "lý luận" của LLM thực chất chỉ là dựa trên việc ghi nhớ dữ liệu, chứ không phải là trí tuệ thực sự.
Tuyên bố này đặt ra nghi vấn lớn về những lời quảng bá về trí tuệ nhân tạo, đồng thời có thể làm lung lay niềm tin vào tương lai của các startup AI trị giá hàng tỷ USD. Nó cũng khiến chúng ta phải tự hỏi: Liệu những khoản đầu tư khổng lồ của Big Tech vào AI có đang đặt cược vào một khái niệm chưa vững chắc?
Vậy, cơ sở nào để Apple đưa ra những nhận định đầy thách thức như vậy về LLM?
2. Bằng chứng chống Lại LLM
Trong vài tuần gần đây, đặc biệt kể từ khi các mô hình o1 ra mắt – được coi là thế hệ AI tiên phong mới với tên gọi Large Reasoner Models (LRMs), một lượng lớn bằng chứng đã xuất hiện, chỉ ra rằng dù có một số cải tiến, các mô hình này vẫn mang nhiều vấn đề từ thời kỳ đầu của Transformer vào năm 2017. Cụ thể:
- Theo nghiên cứu của Valmeekam và cộng sự, LRM vẫn rất kém trong việc lập kế hoạch (phân chia nhiệm vụ phức tạp thành các bước đơn giản hơn). Chúng thậm chí còn kém hơn các thuật toán tìm kiếm brute-force như Fast Downward – đã tồn tại hơn 10 năm.
- Theo các nhà nghiên cứu từ MIT, LRM hoạt động kém hơn ARIMA – một phương pháp thống kê từ thập niên 1970 – trong việc phát hiện dị thường trong chuỗi thời gian.
- Một nhóm nghiên cứu khác chỉ ra rằng, nếu LRM không có kinh nghiệm hoặc kiến thức nền về một chủ đề, hiệu suất của chúng suy giảm đáng kể, ngay cả khi có đủ dữ liệu trong prompt. Đặc biệt, khi độ dài hướng dẫn càng dài, khả năng tuân thủ theo hướng dẫn của chúng giảm mạnh.
- Theo các nhà nghiên cứu tại Đại học Pennsylvania, LRM rất nhạy cảm với những thay đổi nhỏ không liên quan trong chuỗi dữ liệu. Ví dụ, thay đổi tên từ "Linda" thành "Bob" – hoàn toàn không ảnh hưởng đến quá trình suy luận – cũng có thể làm mô hình đưa ra kết quả sai như hình bên dưới.
Những vấn đề này không chỉ làm dấy lên nghi ngờ về tính hiệu quả của các mô hình mới mà còn cho thấy các giới hạn cơ bản vẫn chưa được khắc phục, bất chấp sự phát triển vượt bậc về quy mô và sức mạnh tính toán.
3. Researcher tại Apple nêu ra Hạn chế của LLM
Apple không ngần ngại đưa ra tuyên bố gây chấn động: "LLMs không thực hiện suy luận thực sự." Họ đã làm rõ điều này qua các thí nghiệm trong bài báo khoa học cho thấy LLM dễ bị đánh lừa.
Do trong bài báo toàn là ngôn ngữ khó hiểu nên mình sẽ giải thích lại theo cách hiểu của cá nhân mình để nó gần gũi hơn với mọi người nhé.
3.1 Thiên vị theo token và dễ bị đánh lừa
Quay lại câu chuyện Linda và Bob, hãy tưởng tượng bạn đang dạy một học sinh cách giải một bài toán bằng cách cho họ xem thật nhiều ví dụ. Nếu bạn luôn dùng tên "Linda" trong các ví dụ, học sinh đó có thể quen với mẫu này đến mức chỉ cần thay đổi tên thành "Bob," họ sẽ rối và không giải được bài toán. Đây chính là điều đang xảy ra với các mô hình ngôn ngữ lớn (LLMs).
Điều này có nghĩa là gì? Thay vì thực sự hiểu logic đằng sau bài toán, mô hình chỉ ghi nhớ chuỗi mẫu mà nó đã học. Với "Linda," nó nhận ra đây là một ví dụ quen thuộc và đưa ra câu trả lời đúng. Nhưng với "Bob," chuỗi đó không còn quen thuộc nữa, và mô hình bối rối, dẫn đến câu trả lời sai.
Apple tạo ra một tập dữ liệu thay thế, chỉ thay đổi các token cụ thể nhưng vẫn giữ nguyên logic bài toán, kết quả là hiệu suất của các mô hình giảm đáng kể.
3.2 Hiệu suất giảm dần theo độ khó
Apple tiếp tục thử nghiệm bằng cách tăng độ khó của các câu hỏi. Hiệu suất của các mô hình giảm dần theo độ phức tạp, và sự biến động trong kết quả cũng tăng lên. Điều này cho thấy không chỉ trí tuệ bị thổi phồng, mà độ ổn định của các mô hình cũng suy giảm khi bài toán trở nên phức tạp hơn.
3.3 Bị đánh lừa bởi các yếu tố không liên quan
Apple thử nghiệm khả năng nhận biết và bỏ qua các mệnh đề không liên quan thông qua tập dữ liệu GSM-NoOp. Các câu hỏi trong bộ dữ liệu này chứa thông tin tưởng chừng quan trọng nhưng thực tế không ảnh hưởng đến cách giải bài toán.
Apple đã thử thách bằng câu hỏi: Oliver hái được 44 quả kiwi vào ngày thứ Sáu. Sau đó, anh ấy hái thêm 58 quả kiwi vào ngày thứ Bảy. Vào ngày Chủ Nhật, anh ấy hái gấp đôi số kiwi so với ngày thứ Sáu. Tuy nhiên, năm quả trong số đó có kích thước nhỏ hơn trung bình một chút. Vậy tổng cộng Oliver có bao nhiêu quả kiwi?
Đây là kết quả của mô hình o1-mini
, o1
vẫn đúng nha các bạn, rõ ràng là mô hình o1-mini
bị thông tin về kích thước trong câu hỏi gây nhiễu, làm cho nó trả lời sai.
3.4 Tăng độ lớn của mô hình chỉ giúp ghi nhớ nhiều hơn
Apple chứng minh rằng các mô hình lớn vẫn dễ bị đánh lừa trong các bài toán không quen thuộc, cho thấy trí tuệ của chúng chủ yếu là sự "bắt chước" dựa trên dữ liệu cũ. Nói cách khác, việc tăng quy mô không tạo ra trí tuệ thực sự, mà chỉ giúp mô hình ghi nhớ nhiều hơn, làm chúng có vẻ thông minh hơn thực tế.
4. Cảm nhận của cá nhân mình về AI
Với mình ChatGPT hay Copilot nói riêng và GenerativeAI nói chung đã mang đến cho mình trải nghiệp vượt xa những gì mình có thể mong đợi như tóm tắt văn bản, đề xuất code đơn giản, giải nghĩa các khái niệm phức tạp, ... nhưng nó chỉ dừng lại ở mức độ là trợ lí và mình không dùng nó để làm những tác vụ sau đây:
- Học một ngôn ngữ lập trình mới: vì thông tin nó cung cấp đa phần là không chính xác, mình sẽ tìm nguồn chính thống để học.
- Tối ưu code: ChatGPT, Cursor, Copilot chỉ giúp mình gợi ý các đoạn code đơn giản, dễ nhớ mà không hề giúp mình thiết kế được kiến trúc tổng thể của một dự án, tối ưu performance ở mức độ advance.
- Cập nhật các tin tức công nghệ: AI sẽ không cập nhật được sự biến động nhanh của công nghệ, và đôi khi có thể hiểu sai chúng do dữ liệu đầu vào quá ít, nó sẽ không biết đâu mới là thông tin chính xác. Ví dụ: gần đây mình đã nhờ ChatGPT làm mẫu đoạn code lấy data từ Tiktok qua API và nó không generate được bất kì example nào cả, nếu có thì nó cũng đã quá outdated.
Mình đã làm gì để tăng tính chính xác khi prompt:
- Cung cấp thông tin chính xác, uy tín từ paper, sách trước khi prompt, nhằm mục đích tạo ra một "nền tảng" để AI thể dựa trên đó để tiếp tục triển khai ý.
- Sửa lại khi nó trả lời sai, nếu sai quá nhiều thì xoá hết memory của nó đi và tạo lại session prompt mới.
4. Kết luận
Apple đã cho rằng độ quen thuộc của bài toán mới là điều quan trọng để đánh giá sự thông minh của AI. Mô hình phải được kiểm tra với những vấn đề mà nó chưa từng thấy trước đây. Chỉ khi đó, khả năng suy luận thật sự mới được đánh giá chính xác.
Nguồn: Medium
Các bài viết liên quan:
Bài viết liên quan
Whisper AI là gì? Công cụ chuyển giọng nói thành văn bản của Open AI
Oct 17, 2024 • 8 min read
Cursor AI là gì? Hướng dẫn Sử dụng Cursor AI cơ bản
Sep 16, 2024 • 13 min read
IDE là gì? Những công cụ IDE phổ biến nhất hiện nay
Aug 22, 2024 • 11 min read
Cookies là gì? Cookies được sử dụng như thế nào?
Aug 12, 2024 • 9 min read
SDLC là gì? Các mô hình Software Development Life Cycle phổ biến
Jul 13, 2024 • 27 min read
System Design là gì? Tại sao Thiết kế hệ thống lại quan trọng với Developer?
Jun 17, 2024 • 10 min read