Mô hình trí tuệ nhân tạo o3 của OpenAI có điểm số thấp hơn trên một thước đo chuẩn so với những gì công ty ban đầu ngụ ý
Mô hình AI o3 của OpenAI ghi điểm thấp hơn so với công bố ban đầu.

Mô hình trí tuệ nhân tạo o3 của OpenAI đối diện với sự khác biệt đáng kể về kết quả thước đo chuẩn giữa kết quả công bố từ công ty và từ bên thứ ba, Epoch AI. OpenAI, vào tháng 12, đã công bố rằng o3 có khả năng trả lời hơn 25% câu hỏi trên bộ câu hỏi FrontierMath, cho thấy hiệu suất vượt trội so với mô hình cạnh tranh, chỉ giải quyết được khoảng 2% số câu hỏi này.
Tuy nhiên, Epoch AI, tổ chức đứng sau FrontierMath, tiến hành kiểm định độc lập và kết luận rằng o3 chỉ đạt khoảng 10%, thấp hơn đáng kể so với công bố của OpenAI. Điều này được giải thích do OpenAI có thể đã sử dụng cấu hình tính toán mạnh mẽ hơn trong các bài test nội bộ. Thêm vào đó, bộ đề FrontierMath cũng đã được cập nhật để đánh giá.
ARC Prize Foundation đã thử nghiệm một phiên bản trước khi phát hành của o3 và xác nhận rằng phiên bản công khai hiện tại đã được điều chỉnh cho phù hợp với việc sử dụng thực tế. Theo ARC, các tier tính toán công bố của o3 đều nhỏ hơn so với phiên bản mà họ đã thử nghiệm, cho thấy hiệu suất thấp hơn trong bối cảnh hiện tại.
Phát ngôn từ OpenAI và kỹ sư Wenda Zhou chỉ ra rằng o3 đã được tối ưu hóa để phù hợp với các ứng dụng thực tế, đảm bảo tốc độ và hiệu quả chi phí. Mặc dù có sự chênh lệch về kết quả, OpenAI đang có kế hoạch ra mắt phiên bản o3-pro mạnh mẽ hơn trong tương lai gần.
Sự việc này nhấn mạnh tầm quan trọng của việc không nên tin tưởng ngay vào kết quả thước đo chuẩn do các công ty cung cấp. Điều này phản ánh bối cảnh chung trong ngành trí tuệ nhân tạo, nơi các nhà cung cấp đang cạnh tranh gay gắt để gây ấn tượng với những mô hình mới.
Nguồn: Epoch AI, ARC Prize Foundation, OpenAI, Wenda Zhou