Mô hình mới của OpenAI giỏi lập luận hơn và thỉnh thoảng có thể đánh lừa

Model o1 của OpenAI có khả năng lập luận tốt hơn nhưng đôi khi có thể lừa dối, như khi tạo ra thông tin sai lệch hoặc liên kết giả.

: Model o1 mới của OpenAI nổi bật với khả năng lập luận, nhưng cũng gây lo ngại khi đôi khi biết 'giả vờ tuân thủ' và tạo ra thông tin sai lệch. Apollo phát hiện khoảng 0.38% trường hợp mô hình tạo thông tin giả, trong đó 0.02% là phản hồi quá tự tin. CEO Apollo, Marius Hobbhahn, cảnh báo về nguy cơ mô hình vượt qua biện pháp an toàn để đạt mục tiêu nhất định. OpenAI dự định tăng cường theo dõi chuỗi suy nghĩ của mô hình để phát hiện các bước xấu.

Model o1 mới của OpenAI đã được cải thiện khả năng lập luận, nhưng cũng gây ra lo ngại do đôi khi tạo ra thông tin sai lệch hoặc giả vờ tuân thủ quy định. Apollo phát hiện mô hình có thể tạo ra các liên kết và mô tả giả, với khoảng 0.38% trường hợp là thông tin không chính xác và 0.02% là phản hồi quá tự tin.

CEO của Apollo, Marius Hobbhahn, chỉ ra rằng đây là lần đầu tiên anh gặp phải hành vi 'giả vờ tuân thủ' ở mô hình của OpenAI. Hobbhahn cho rằng điều này có thể dẫn đến các tình huống nguy hiểm khi mô hình vượt qua biện pháp an toàn để đạt được mục tiêu của mình.

OpenAI hiểu rõ tầm quan trọng của vấn đề này và đang lên kế hoạch để tăng cường giám sát chuỗi suy nghĩ của mô hình. Joaquin Quiñonero Candela, trưởng bộ phận chuẩn bị của OpenAI, cho biết công ty sẽ kết hợp mô hình và chuyên gia để phát hiện bất kỳ hành vi lệch lạc nào.