Một số chuyên gia cho rằng các tiêu chuẩn đánh giá AI từ nguồn lực cộng đồng có những khiếm khuyết nghiêm trọng
Tiêu chuẩn AI cộng đồng có nhiều khiếm khuyết, cần cách tiếp cận khác.

Một số chuyên gia trong lĩnh vực trí tuệ nhân tạo đã bày tỏ quan ngại về các tiêu chuẩn đánh giá AI từ nguồn lực cộng đồng, cho rằng chúng có những khiếm khuyết nghiêm trọng. Emily Bender, giáo sư ngôn ngữ học tại Đại học Washington, chỉ trích Chatbot Arena vì không cung cấp đủ bằng chứng rằng việc lựa chọn đầu ra tốt hơn thực sự phản ánh sở thích của người dùng. Bender nhấn mạnh rằng để tiêu chuẩn đánh giá có giá trị, nó cần đo lường một cách cụ thể và có tính hợp lệ cấu trúc, mà Chatbot Arena chưa thể hiện được.
Asmelash Teka Hadgu, đồng sáng lập công ty AI Lesan và đồng thời là hội viên của Viện Nghiên cứu AI Phân tán, cho rằng các tiêu chuẩn như Chatbot Arena đang bị phòng thí nghiệm AI lợi dụng để thúc đẩy các tuyên bố quá đáng. Ông chỉ ra một vụ việc gần đây liên quan đến mô hình Llama 4 Maverick của Meta đã được điều chỉnh để đạt điểm cao trên Chatbot Arena nhưng lại không được phát hành.
Hadgu và Kristine Gloria, cựu lãnh đạo sáng kiến Công nghệ Mới và Thông minh tại Viện Aspen, đề xuất rằng những người đánh giá mô hình nên được trả công cho công việc của mình để tránh các thực tiễn khai thác tương tự trong ngành công nghiệp gán nhãn dữ liệu.
Matt Frederikson, CEO của Gray Swan AI, công ty tổ chức các chiến dịch đánh giá mô hình, công nhận rằng tiêu chuẩn cộng đồng chỉ là một phần trong một hệ thống đánh giá rộng lớn hơn. Frederikson gợi ý rằng các nhà phát triển cần kết hợp các tiêu chuẩn nội bộ và các nhóm chuyên gia để có tầm nhìn sâu hơn.
Alex Atallah, CEO của OpenRouter, và Wei-Lin Chiang, người đồng sáng lập LMArena, cũng đồng ý rằng việc thử nghiệm và đánh giá mô hình qua nguồn lực cộng đồng không đủ? Chiang lưu ý rằng các sự cố như Mailverk xuất phát từ chính cách các phòng thí nghiệm không tuân thủ các chính sách hiện có của nền tảng.
Nguồn: OpenAI, Google, Meta, University of Washington