Những nhà nghiên cứu này đã sử dụng câu hỏi từ câu đố NPR Sunday Puzzle để đánh giá các mô hình 'lý luận' AI

Nghiên cứu sử dụng câu đố từ NPR để kiểm tra khả năng lý luận của mô hình AI.

: Nhóm nghiên cứu từ nhiều trường đại học đã phát triển một tiêu chuẩn mới sử dụng câu đố từ NPR để kiểm tra khả năng của mô hình AI. Các mô hình lý luận như o1 và DeepSeek's R1 cho thấy khả năng tự kiểm tra nhưng vẫn có điểm yếu. Dữ liệu cho thấy các mô hình thường mắc lỗi như đưa ra câu trả lời sai mà chúng biết là không đúng. Dự kiến nghiên cứu sẽ mở rộng thử nghiệm để cải thiện hiệu suất mô hình.

Một nhóm nghiên cứu từ các trường đại học và startup đã sử dụng câu đố từ chương trình Sunday Puzzle của NPR để tạo tiêu chuẩn đánh giá mô hình trí tuệ nhân tạo. Họ phát hiện ra rằng các mô hình như o1 và R1 có khả năng tự kiểm tra tốt nhưng vẫn gặp khó khăn trong việc xử lý một số câu đố.

Khi thử nghiệm với khoảng 600 câu đố từ Sunday Puzzle, các mô hình lý luận thường kéo dài thời gian đưa ra đáp án nhưng vẫn mắc những lỗi đáng ngạc nhiên. R1 thậm chí còn thể hiện trạng thái 'bực bội' và thú nhận bỏ cuộc trong một số câu hỏi khó.

Mô hình o1 đạt điểm cao nhất với 59%, vượt trội hơn so với R1 chỉ đạt 35%. Nhóm nghiên cứu đặt kế hoạch thử nghiệm thêm với các mô hình khác để phát hiện và cải thiện nhược điểm của chúng, tạo ra một tiêu chuẩn đánh giá khả năng lý luận mở hơn cho những người không chuyên.