xAI có nói dối về các điểm chuẩn của Grok 3 không?
Tranh cãi về kết quả benchmark của mô hình Grok 3 từ xAI với OpenAI.

Nhân viên từ OpenAI đã cáo buộc công ty xAI của Elon Musk về việc công bố sai lệch kết quả benchmark cho mô hình AI mới nhất của họ, Grok 3. Igor Babushkin, một trong các đồng sáng lập xAI, khẳng định công ty không làm gì sai và cuộc đối thoại giữa hai bên thể hiện lập trường trái ngược.
Trong bài đăng trên blog của xAI, biểu đồ cho thấy Grok 3 vượt qua mô hình o3-mini-high của OpenAI trên bài thi AIME 2025. Tuy nhiên, OpenAI nhanh chóng chỉ ra thiếu sót trong biểu đồ khi không có điểm “cons@64” (phép thử 64 lần xem câu trả lời nào xuất hiện nhiều nhất), dẫn đến tranh cãi về độ chính xác của các dữ liệu so sánh.
Các chuyên gia cho rằng metric quan trọng nhất là chi phí tính toán và tài chính để đạt được điểm số tối ưu vẫn chưa được tiết lộ. Điều này cho thấy các khuyết điểm trong việc truyền tải thông tin về giới hạn và điểm mạnh của các mô hình AI qua các benchmark.