AI trượt bài kiểm tra logic: Nhiều nghiên cứu cho thấy ảo tưởng về lý luận

AI gặp khó khăn trong các bài kiểm tra logic phức tạp, với độ chính xác chỉ từ 4% đến 24%.

: Các hệ thống AI hiện đại không thể giải quyết các bài toán logic yêu cầu suy luận từng bước khi độ phức tạp gia tăng. Nghiên cứu của Apple tiết lộ rằng AI thường không lý luận mà chỉ đơn giản là lặp lại các mô hình đã học. Mặc dù có các mô hình như Google's Gemini 2.5 Pro và OpenAI's o3-mini, nhưng kết quả vẫn không khả quan với điểm số lần lượt chỉ đạt 24% và 2%. Các chuyên gia khuyến nghị phương pháp tiếp cận lai kết hợp giữa mô hình ngôn ngữ lớn và logic ký hiệu để tránh đưa ra câu trả lời sai lầm một cách tự tin.

Các nghiên cứu gần đây cho thấy rằng các hệ thống trí tuệ nhân tạo (AI) gặp khó khăn trong việc xử lý các bài kiểm tra logic phức tạp, cho thấy hạn chế trong khả năng suy luận của chúng. Một nghiên cứu do Apple thực hiện đã thử nghiệm các mô hình AI hàng đầu trên câu đố Tower of Hanoi và phát hiện ra rằng hiệu suất của chúng bị suy giảm rõ rệt khi độ phức tạp tăng lên. Trong trường hợp cụ thể của câu đố này, AI thường không thể theo dõi đầy đủ các bước và mục tiêu của nhiệm vụ.

Các phát hiện này được củng cố thêm bởi một nghiên cứu khác từ đại học ETH Zurich và INSAIT. Nghiên cứu thử thách các mô hình AI với các bài toán từ cuộc thi Toán học Olympic Mỹ 2025, nơi yêu cầu các giải pháp giải thích đầy đủ. Không một mô hình nào trong gần 200 lần thử có thể đưa ra giải pháp hoàn hảo. Mặc dù mô hình Gemini 2.5 Pro của Google đạt 24% tổng điểm, nhưng đó là dưới dạng điểm phần, không phải do giải quyết hoàn toàn 24% vấn đề.

Gary Marcus, một nhà phê bình lâu năm về AI, đã gọi phát hiện của Apple là "rất đáng chê trách" đối với các mô hình ngôn ngữ lớn. Ông chỉ ra rằng nếu hệ thống AI trị giá hàng tỷ đô la không thể giải quyết được một vấn đề mà các sinh viên AI năm đầu đã giải quyết được từ năm 1957, thì cơ hội để các mô hình này đạt được AGI (trí tuệ nhân tạo tổng quát) là rất xa vời.

Các chuyên gia khác, như Sean Goedecke, bày tỏ rằng thất bại này không cho thấy mô hình là vô vọng mà chỉ ra cách hệ thống AI điều chỉnh hành vi của chúng khi dưới áp lực – đôi khi thông minh, đôi khi không. Khi độ phức tạp của bài toán vượt ngưỡng, mô hình có thể thay đổi kỹ năng được kiểm tra từ việc suy luận qua chuỗi sự kiện thành tìm ra giải pháp tổng quát nhanh hơn.

Các nhà nghiên cứu đã chỉ trích cách mà các công ty công nghệ tiếp thị các mô hình này như những kẻ biết lý luận có khả năng xử lý các công việc phức tạp, nhiều bước. Thực tế cho thấy điều mà họ gọi là suy luận chỉ là việc tự động bổ trợ với các bước bổ sung. Họ khuyến nghị phương án kết hợp mô hình ngôn ngữ lớn với logic ký hiệu và các ràng buộc đặc thù nhiệm vụ để tránh những câu trả lời sai hoàn toàn tự tin.

Nguồn: TechSpot, Apple paper, ETH Zurich