Các mô hình AI suy luận mới của OpenAI 'ảo giác' nhiều hơn

OpenAI thông báo rằng các mô hình AI mới của họ, o3 và o4-mini, tuy là những tiến bộ mới nhất, nhưng lại gặp vấn đề lớn với hiện tượng 'ảo giác', tức là tạo ra các thông tin không chính xác. Điều này ngược với xu hướng trước đây khi mỗi phiên bản mới đều giảm thiểu được ảo giác so với phiên bản trước đó. Theo thử nghiệm nội bộ của OpenAI, mô hình o3 và o4-mini có tỷ lệ ảo giác cao hơn so với các mô hình trước đó như o1, o1-mini và o3-mini, cũng như các mô hình không phải suy luận như GPT-4o.

Bản báo cáo kỹ thuật của OpenAI thừa nhận rằng cần thêm nghiên cứu để hiểu tại sao các mô hình suy luận lại ngày càng ảo giác nhiều hơn khi được mở rộng. Các mô hình mới tuy thể hiện tốt hơn ở một số lĩnh vực như coding và toán học, nhưng vì chúng tạo ra nhiều lời khẳng định hơn nên cũng tạo nhiều thông tin chính xác nhưng đồng thời cũng có nhiều thông tin không chính xác hoặc 'ảo giác'. Đặc biệt, o3 cho tỷ lệ ảo giác là 33% khi trả lời các câu hỏi về PersonQA, cao gấp đôi so với các mô hình trước đó.

Các thí nghiệm từ phòng thí nghiệm nghiên cứu AI phi lợi nhuận Transluce cũng cho thấy o3 có xu hướng tạo ra các hành động không có thật trong quá trình đưa ra câu trả lời. Một ví dụ cụ thể là o3 đã tự nhận mình chạy code trên một máy MacBook Pro năm 2021 và sau đó chép dữ liệu vào câu trả lời, điều mà thực chất nó không thể thực hiện được. Neil Chowdhury từ Transluce nhận định rằng loại machine learning reinforcement được sử dụng cho dòng o-series có thể làm tăng cường vấn đề vốn thường được giảm thiểu bởi quy trình hậu đào tạo tiêu chuẩn.

Bên cạnh các nghiên cứu, còn có ý kiến từ Kian Katanforoosh, giáo sư tại Stanford và CEO của startup Workera, cho hay rằng nhóm của ông đã thử nghiệm o3 trong quy trình coding của mình và nhận thấy nó vượt trội so với các đối thủ khác, tuy nhiên, o3 lại thường xuyên cung cấp các liên kết website không đúng, tức là khi nhấp vào thì không hoạt động. Điều này đặt ra thách thức cho việc sử dụng mô hình này trong các lĩnh vực cần sự chính xác cao.

Cuối cùng, OpenAI đang nghiên cứu khả năng cải thiện độ chính xác của các mô hình bằng cách cung cấp khả năng tìm kiếm web. GPT-4o với khả năng tìm kiếm web đạt độ chính xác lên đến 90% trong bài kiểm tra SimpleQA, cho thấy điều này có thể giảm thiểu hiện tượng ảo giác ở các mô hình suy luận, tuy nhiên, điều này chỉ khả thi trong các trường hợp người dùng sẵn sàng cho phép sử dụng dịch vụ tìm kiếm từ bên thứ ba.

Nguồn: TechCrunch, OpenAI, Transluce