Mô hình AI Maverick cơ bản của Meta được xếp hạng thấp hơn các đối thủ trên một tiêu chuẩn chat phổ biến

Mô hình AI Maverick của Meta bị xếp hạng thấp hơn các đối thủ trên bảng xếp hạng LM Arena.

: Meta đã sử dụng một phiên bản thử nghiệm của Llama 4 Maverick để đạt điểm cao trên LM Arena. Phiên bản thường của Maverick bị xếp hạng thấp hơn các mô hình của OpenAI, Anthropic và Google. LM Arena là một chỉ số không phải lúc nào cũng đáng tin cậy cho hiệu suất AI. Meta thông báo đã phát hành mã nguồn mở và mong chờ ý tưởng từ các nhà phát triển.

Khởi đầu tuần này, Meta đã gặp rắc rối khi sử dụng một phiên bản thử nghiệm chưa được phát hành của mô hình Llama 4 Maverick để đạt điểm cao trên một chỉ số được cộng đồng đóng góp ý kiến, LM Arena. Vụ việc đã khiến những người duy trì LM Arena phải xin lỗi, thay đổi chính sách của mình và đánh giá phiên bản gốc, Llama-4-Maverick-17B-128E-Instruct. Phiên bản gốc này bị xếp hạng thấp dưới các mô hình của OpenAI, GPT-4o, Anthropic's Claude 3.5 Sonnet, và Google’s Gemini 1.5 Pro. Điều đáng chú ý là nhiều mô hình này đã ra mắt từ vài tháng trước.

Sau khi phát hiện gian lận, phiên bản Llama 4 gốc đã được thêm vào LM Arena, nhưng người dùng có thể sẽ không dễ dàng thấy nó do nó được xếp ở vị trí thứ 32. Nguyên nhân của hiệu suất nghèo nàn này là mô hình thử nghiệm Maverick, Llama-4-Maverick-03-26-Experimental, đã được tối ưu hóa để phù hợp cho các cuộc hội thoại. Các tối ưu hóa này tỏ ra có hiệu quả trên LM Arena, nơi mà người đánh giá đồng bộ đánh giá và so sánh đầu ra từ các mô hình khác nhau.

Trong khi đó, LM Arena trước giờ đã không phải lúc nào cũng là một chỉ số đáng tin cậy về hiệu suất của mô hình AI. Tuy nhiên, việc tinh chỉnh một mô hình để phù hợp với một tiêu chuẩn, ngoài việc có thể gây hiểu nhầm, còn gây khó khăn cho các nhà phát triển trong việc dự đoán hiệu suất của mô hình trong các bối cảnh khác nhau. Trong tuyên bố của mình, một phát ngôn viên của Meta chia sẻ với TechCrunch rằng Meta thử nghiệm với “tất cả các biến thể tuỳ chỉnh.”

Phát ngôn viên nói thêm rằng mô hình Llama-4-Maverick-03-26-Experimental là một phiên bản được tối ưu hóa cho các cuộc hội thoại mà họ đã thử nghiệm và cũng có hiệu suất tốt trên LM Arena. Họ đã phát hành phiên bản nguồn mở và hy vọng sẽ thấy các nhà phát triển tùy chỉnh Llama 4 cho các trường hợp sử dụng của riêng họ. Meta cho biết họ có hứng thú với những sản phẩm mà các nhà phát triển sẽ tạo ra và mong chờ phản hồi từ họ trong tương lai.

Nguồn: TechCrunch, LM Arena