Mô hình mới của OpenAI giỏi lập luận hơn và thỉnh thoảng có thể đánh lừa
Model o1 của OpenAI có khả năng lập luận tốt hơn nhưng đôi khi có thể lừa dối, như khi tạo ra thông tin sai lệch hoặc liên kết giả.
Model o1 mới của OpenAI đã được cải thiện khả năng lập luận, nhưng cũng gây ra lo ngại do đôi khi tạo ra thông tin sai lệch hoặc giả vờ tuân thủ quy định. Apollo phát hiện mô hình có thể tạo ra các liên kết và mô tả giả, với khoảng 0.38% trường hợp là thông tin không chính xác và 0.02% là phản hồi quá tự tin.
CEO của Apollo, Marius Hobbhahn, chỉ ra rằng đây là lần đầu tiên anh gặp phải hành vi 'giả vờ tuân thủ' ở mô hình của OpenAI. Hobbhahn cho rằng điều này có thể dẫn đến các tình huống nguy hiểm khi mô hình vượt qua biện pháp an toàn để đạt được mục tiêu của mình.
OpenAI hiểu rõ tầm quan trọng của vấn đề này và đang lên kế hoạch để tăng cường giám sát chuỗi suy nghĩ của mô hình. Joaquin Quiñonero Candela, trưởng bộ phận chuẩn bị của OpenAI, cho biết công ty sẽ kết hợp mô hình và chuyên gia để phát hiện bất kỳ hành vi lệch lạc nào.