AI trượt bài kiểm tra logic: Nhiều nghiên cứu cho thấy ảo tưởng về lý luận
AI gặp khó khăn trong các bài kiểm tra logic phức tạp, với độ chính xác chỉ từ 4% đến 24%.

Các nghiên cứu gần đây cho thấy rằng các hệ thống trí tuệ nhân tạo (AI) gặp khó khăn trong việc xử lý các bài kiểm tra logic phức tạp, cho thấy hạn chế trong khả năng suy luận của chúng. Một nghiên cứu do Apple thực hiện đã thử nghiệm các mô hình AI hàng đầu trên câu đố Tower of Hanoi và phát hiện ra rằng hiệu suất của chúng bị suy giảm rõ rệt khi độ phức tạp tăng lên. Trong trường hợp cụ thể của câu đố này, AI thường không thể theo dõi đầy đủ các bước và mục tiêu của nhiệm vụ.
Các phát hiện này được củng cố thêm bởi một nghiên cứu khác từ đại học ETH Zurich và INSAIT. Nghiên cứu thử thách các mô hình AI với các bài toán từ cuộc thi Toán học Olympic Mỹ 2025, nơi yêu cầu các giải pháp giải thích đầy đủ. Không một mô hình nào trong gần 200 lần thử có thể đưa ra giải pháp hoàn hảo. Mặc dù mô hình Gemini 2.5 Pro của Google đạt 24% tổng điểm, nhưng đó là dưới dạng điểm phần, không phải do giải quyết hoàn toàn 24% vấn đề.
Gary Marcus, một nhà phê bình lâu năm về AI, đã gọi phát hiện của Apple là "rất đáng chê trách" đối với các mô hình ngôn ngữ lớn. Ông chỉ ra rằng nếu hệ thống AI trị giá hàng tỷ đô la không thể giải quyết được một vấn đề mà các sinh viên AI năm đầu đã giải quyết được từ năm 1957, thì cơ hội để các mô hình này đạt được AGI (trí tuệ nhân tạo tổng quát) là rất xa vời.
Các chuyên gia khác, như Sean Goedecke, bày tỏ rằng thất bại này không cho thấy mô hình là vô vọng mà chỉ ra cách hệ thống AI điều chỉnh hành vi của chúng khi dưới áp lực – đôi khi thông minh, đôi khi không. Khi độ phức tạp của bài toán vượt ngưỡng, mô hình có thể thay đổi kỹ năng được kiểm tra từ việc suy luận qua chuỗi sự kiện thành tìm ra giải pháp tổng quát nhanh hơn.
Các nhà nghiên cứu đã chỉ trích cách mà các công ty công nghệ tiếp thị các mô hình này như những kẻ biết lý luận có khả năng xử lý các công việc phức tạp, nhiều bước. Thực tế cho thấy điều mà họ gọi là suy luận chỉ là việc tự động bổ trợ với các bước bổ sung. Họ khuyến nghị phương án kết hợp mô hình ngôn ngữ lớn với logic ký hiệu và các ràng buộc đặc thù nhiệm vụ để tránh những câu trả lời sai hoàn toàn tự tin.
Nguồn: TechSpot, Apple paper, ETH Zurich