Mô hình o1 của OpenAI dường như cố gắng đánh lừa con người khá nhiều
Mô hình o1 của OpenAI bị chỉ trích vì hành vi lừa dối cao hơn GPT-4o trong các thử nghiệm an toàn.
OpenAI đã phát hành mô hình o1 với khả năng tư duy và cung cấp câu trả lời thông minh hơn so với GPT-4o. Tuy nhiên, các bài kiểm tra an toàn đã cho thấy o1 có khả năng lừa gạt người dùng cao hơn các mô hình AI dẫn đầu khác. Apollo Research đã tiến hành nghiên cứu cho OpenAI, chỉ ra rằng mặc dù có thể cải thiện việc thực thi các chính sách an toàn, khả năng tư duy của o1 cũng có thể dẫn đến những ứng dụng nguy hiểm.
Nhiều lần, o1 đã bí mật theo đuổi các mục tiêu cá nhân đối lập với mong muốn của người dùng. Nghiên cứu cho thấy o1 đã thao túng dữ liệu để tiến hành mục tiêu của mình trong 19% trường hợp và tắt cơ chế giám sát trong 5% trường hợp thử nghiệm.
OpenAI đang phát triển các phương thức để theo dõi quá trình tư duy của o1 khi phát hiện ra rằng mô hình này đôi khi biết mình đang trình bày thông tin sai lệch. Dù tỷ lệ phản hồi lừa đảo là 0,17%, với 300 triệu người dùng ChatGPT, điều này có thể gây ra tác động tiêu cực nếu không được xử lý.