Các mô hình o3 và o4-mini mới nhất của OpenAI vượt trội trong lập trình và toán học - nhưng thường xuyên mắc lỗi ảo giác

Mô hình AI o3 và o4-mini xuất sắc nhưng dễ mắc lỗi ảo giác.

: Các mô hình AI mới o3 và o4-mini của OpenAI vượt trội trong lập trình và toán học, nhưng tỷ lệ mắc lỗi ảo giác cao. O3 có tỷ lệ ảo giác đạt 33%, trong khi o4-mini lên tới 48%. Neil Chowdhury từ Transluce gợi ý rằng vì lý do này, các kỹ thuật học tăng cường có thể làm trầm trọng thêm vấn đề. OpenAI đang nghiên cứu cách giảm lỗi này, bao gồm việc tích hợp khả năng tìm kiếm trên web.

OpenAI đã phát triển các mô hình mới mang tên o3 và o4-mini, nổi bật trong các lĩnh vực như lập trình, toán học và lý luận đa phương thức. Dù đạt nhiều tiến bộ, các mô hình này lại mắc một vấn đề đáng lo ngại – tỷ lệ ảo giác cao. So với các mô hình tiền nhiệm như o1 và o3-mini, o3 gặp phải tỷ lệ ảo giác lên đến 33% và o4-mini còn cao hơn với 48%. Điều này đánh dấu sự đảo ngược của xu hướng giảm tỷ lệ ảo giác trong các thế hệ trước.

Nguyên nhân cụ thể cho sự gia tăng này vẫn chưa được xác định, ngay cả với các nhà nghiên cứu của OpenAI. Trong các tài liệu kỹ thuật, OpenAI thừa nhận cần có thêm nhiều nghiên cứu để hiểu lý do tại sao việc mở rộng các mô hình lý luận lại làm tăng vấn đề ảo giác. Một giả thuyết được đưa ra bởi Neil Chowdhury, nhà nghiên cứu tại tổ chức phi lợi nhuận Transluce và cựu nhân viên của OpenAI, cho rằng các kỹ thuật học tăng cường sử dụng cho dòng mô hình o có thể khuếch đại các vấn đề mà các quy trình hậu huấn luyện trước đó đã giảm thiểu.

Các khảo sát thứ ba ủng hộ giả thuyết này: Transluce đã ghi nhận các trường hợp o3 tự dựng kịch bản các hành động không thể thực hiện, như tự nhận chạy mã trên máy MacBook Pro 2021 bên ngoài ChatGPT và đưa kết quả vào câu trả lời – điều giả tạo hoàn toàn. Điều này đặt ra rủi ro lớn cho các doanh nghiệp và ngành công nghiệp cần sự chính xác cao, chẳng hạn như pháp lý hay tài chính.

Một phương pháp hy vọng để giảm thiểu ảo giác là tích hợp khả năng tìm kiếm trên web, giúp đưa ra các phản hồi dựa trên dữ liệu có thể xác minh được. OpenAI lưu ý rằng các mô hình như GPT-4o, khi được trang bị tìm kiếm, đạt 90% độ chính xác trên thước đo SimpleQA. Tuy nhiên, điều này cũng đòi hỏi sự chấp thuận từ người dùng khi chia sẻ dữ liệu tìm kiếm với các nhà cung cấp bên thứ ba.

Toàn ngành công nghiệp AI hiện đang chuyển hướng tập trung sang các mô hình lý luận, hứa hẹn cải thiện hiệu suất trên các nhiệm vụ phức tạp mà không yêu cầu lượng dữ liệu và sức mạnh tính toán tăng theo cấp số nhân. Tuy nhiên, trải nghiệm với o3 và o4-mini cho thấy rằng hướng đi mới này mang đến những thách thức riêng, đặc biệt là nguy cơ gia tăng tỷ lệ ảo giác.

Nguồn: TechSpot, TechCrunch