Một bài kiểm tra AGI mới, đầy thách thức đang làm khó hầu hết các mô hình AI
ARC-AGI-2 kiểm tra AI hàng đầu và thách thức mô hình AI, với đa số đạt điểm kém.

Theo một bài đăng trên blog của Quỹ Arc Prize, một tổ chức phi lợi nhuận do nhà nghiên cứu AI nổi tiếng François Chollet đồng sáng lập, một bài kiểm tra mới mang tên ARC-AGI-2 đã được giới thiệu. Bài kiểm tra này được thiết kế nhằm đánh giá trí thông minh tổng quát của các mô hình AI tiên tiến, thông qua việc yêu cầu chúng giải các bài toán phức tạp giống như câu đố, liên quan đến việc xác định các mẫu hình ảnh trong lưới các ô vuông nhiều màu sắc. Khác với phiên bản tiền nhiệm ARC-AGI-1, vốn cho phép các mô hình AI sử dụng sức mạnh tính toán lớn hay “brute force”, ARC-AGI-2 đòi hỏi các chiến lược giải quyết vấn đề có thể diễn giải được, chú trọng vào hiệu quả thay vì chỉ đơn thuần dựa vào sức mạnh tính toán.
Hiệu suất của các mô hình AI hiện tại trong bài kiểm tra ARC-AGI-2 được đánh giá là thấp đáng kể, với điểm số của o1-pro (của OpenAI) và R1 (của DeepSeek) chỉ dao động từ 1% đến 1.3%. Ngay cả các mô hình không chuyên về suy luận nhưng mạnh mẽ như GPT-4.5, Claude 3.7 Sonnet và Gemini 2.0 Flash cũng chỉ đạt khoảng 1%. Trong khi đó, những người tham gia là con người thiết lập mức điểm chuẩn với điểm số trung bình là 60%. Điều này cho thấy khoảng cách lớn về khả năng thích ứng giữa hệ thống AI và con người khi đối mặt với các thách thức mới không nằm trong dữ liệu huấn luyện của chúng.
François Chollet đã công khai tuyên bố rằng bài kiểm tra ARC-AGI-2 là thước đo chính xác hơn cho trí thông minh thực tiễn của một mô hình so với ARC-AGI-1, vốn bị hạn chế do quá phụ thuộc vào năng lực tính toán. Ông cho biết ARC-AGI-2 tích hợp một tiêu chí quan trọng là hiệu quả, buộc các mô hình AI phải diễn giải và xử lý thông tin theo thời gian thực, từ đó loại bỏ khả năng dựa vào việc ghi nhớ máy móc.
Việc triển khai ARC-AGI-2 diễn ra trong bối cảnh ngành công nghệ ngày càng kêu gọi thiết lập các chuẩn đo mới để đo lường khả năng tiến bộ của AI trong các lĩnh vực đổi mới và sáng tạo. Thomas Wolf, đồng sáng lập Hugging Face, cũng nhấn mạnh điều này với TechCrunch, cho rằng cần thiết phải có các bài kiểm tra phản ánh đúng năng lực của trí tuệ nhân tạo tổng quát (AGI). Đáp lại, Quỹ Arc Prize đã phát động một cuộc thi mới mang tên Arc Prize 2025, thách thức các nhà phát triển đạt được độ chính xác 85% trên ARC-AGI-2 trong khi vẫn giữ chi phí mỗi bài làm dưới mức 0,42 USD.
Đáng chú ý, mô hình suy luận tiên tiến nhất của OpenAI o3, từng vượt trội hơn tất cả các mô hình AI khác trong ARC-AGI-1, nhưng chỉ đạt được 4% điểm trong ARC-AGI-2, dù chi phí thực hiện mỗi bài lên tới 200 USD. Sự chênh lệch này không chỉ thể hiện mức độ tinh vi của bài kiểm tra mới trong việc đánh giá trí thông minh thật sự, mà còn nhấn mạnh tầm quan trọng của việc đo lường hiệu quả trong kỹ năng giải quyết vấn đề. Những thay đổi mà ARC-AGI-2 đề xuất là một phần trong xu hướng lớn hơn hướng tới các công nghệ AI bền vững, hiệu quả và linh hoạt hơn.
Nguồn: TechCrunch, blog Arc Prize Foundation, François Chollet (X).