Những nhà nghiên cứu này đã sử dụng câu hỏi từ câu đố NPR Sunday Puzzle để đánh giá các mô hình 'lý luận' AI
Nghiên cứu sử dụng câu đố từ NPR để kiểm tra khả năng lý luận của mô hình AI.

Một nhóm nghiên cứu từ các trường đại học và startup đã sử dụng câu đố từ chương trình Sunday Puzzle của NPR để tạo tiêu chuẩn đánh giá mô hình trí tuệ nhân tạo. Họ phát hiện ra rằng các mô hình như o1 và R1 có khả năng tự kiểm tra tốt nhưng vẫn gặp khó khăn trong việc xử lý một số câu đố.
Khi thử nghiệm với khoảng 600 câu đố từ Sunday Puzzle, các mô hình lý luận thường kéo dài thời gian đưa ra đáp án nhưng vẫn mắc những lỗi đáng ngạc nhiên. R1 thậm chí còn thể hiện trạng thái 'bực bội' và thú nhận bỏ cuộc trong một số câu hỏi khó.
Mô hình o1 đạt điểm cao nhất với 59%, vượt trội hơn so với R1 chỉ đạt 35%. Nhóm nghiên cứu đặt kế hoạch thử nghiệm thêm với các mô hình khác để phát hiện và cải thiện nhược điểm của chúng, tạo ra một tiêu chuẩn đánh giá khả năng lý luận mở hơn cho những người không chuyên.