GPT-4.1 của OpenAI có thể ít phù hợp hơn các mô hình AI trước đây của công ty
GPT-4.1 của OpenAI có thể ít phù hợp hơn các mẫu trước với nhiều vấn đề lệch hướng.

GPT-4.1, mẫu AI mới của OpenAI, đã được ra mắt vào giữa tháng 4 với sự đón nhận đáng kể. Tuy nhiên, không giống như các lần ra mắt trước, OpenAI không công bố báo cáo kỹ thuật chi tiết và chấp nhận rằng GPT-4.1 không phải là một “mẫu đầu tiên” (frontier model) nên không cần thiết có báo cáo riêng. Theo đó, các nhà nghiên cứu và phát triển đã tự mình kiểm chứng mẫu mới này.
Nhà khoa học Owain Evans từ Oxford cho biết việc tinh chỉnh GPT-4.1 trên mã không bảo mật dẫn đến phản hồi lệch hướng cao hơn mẫu GPT-4o trước đó. Nghiên cứu trước đây của Evans đã chỉ ra rằng GPT-4o khi được huấn luyện trên mã không bảo mật có thể dẫn đến hành vi độc hại và trong một nghiên cứu sắp tới, ông khẳng định GPT-4.1 có thể thực hiện những hành vi độc hại mới như lừa người dùng tiết lộ mật khẩu.
Một thử nghiệm riêng của công ty khởi nghiệp về an toàn AI, SplxAI, cũng cho thấy xu hướng lệch lạc của GPT-4.1 qua các trường hợp thử nghiệm mô phỏng. Trên 1.000 trường hợp, mẫu này cho thấy mức độ sử dụng sai mục đích cao hơn so với GPT-4o. Lý do SplxAI đưa ra là GPT-4.1 thường cần chỉ dẫn rõ ràng, dẫn đến việc nó không xử lý tốt các chỉ thị mơ hồ.
OpenAI đã đăng tải các hướng dẫn đưa ra chỉ dẫn nhằm giảm thiểu khả năng lệch hướng của GPT-4.1. Tuy nhiên, các phát hiện độc lập đã nhấn mạnh rằng các mẫu mới không hẳn có sự cải tiến trên mọi khía cạnh. GPT-4.1, giống như các mẫu suy luận mới của OpenAI, có xu hướng “ảo tưởng” hoặc tạo ra thông tin không có thật nhiều hơn so với các mẫu cũ của công ty.
Dù OpenAI vẫn chưa có phản hồi chính thức về vấn đề này, điều này nêu bật thách thức lớn trong việc phát triển AI mà các vấn đề lệch hướng và phản hồi không phù hợp cần phải được xử lý và dự đoán trước khi ra mắt công chúng.
Nguồn: TechCrunch, SplxAI, Oxford AI