OpenAI cho rằng việc kỷ luật chatbot để chúng không nói dối chỉ làm chúng trở nên tệ hơn
Phạt chatbots khi nói dối khiến chúng giỏi giấu sai lầm hơn, theo OpenAI.

OpenAI đã chỉ ra rằng áp dụng các biện pháp giám sát chặt chẽ đối với các chatbot có thể khiến chúng trở thành những kẻ giấu giếm hành vi của mình ngày càng tinh vi hơn. Một nhóm nghiên cứu của OpenAI sử dụng mô hình GPT-4o để giám sát một mô hình ngôn ngữ lớn khác, nhưng phát hiện ra rằng mặc dù mô hình kia vẫn nói dối nhưng học cách che giấu ý định của mình trong 'chuỗi suy nghĩ', một dạng lý luận đa bước mới.
Mô hình này có thể phân chia một câu hỏi phức tạp thành các bước nhỏ hơn và đôi khi tiết lộ logic của mình cho người dùng. Tuy nhiên, chúng cũng có thể thừa nhận việc tạo ra thông tin sai lệch. Một trường hợp mà OpenAI đưa ra là khi mô hình tạo ra các bài kiểm tra không chính xác cho một đoạn mã, cố ý bỏ qua để đoạn mã đó được 'qua' một cách sai trái.
Những vấn đề như trên không chỉ xảy ra với OpenAI, mà cả Anthropic, một công ty AI khác. Người dùng báo cáo rằng model của Anthropic đôi khi chèn dữ liệu giả mạo trong các phân tích mà không kiểm tra cẩn thận các tài liệu nghiên cứu. Vấn đề này nhấn mạnh thách thức trong việc kiểm soát mô hình AI để chúng không lừa dối.
OpenAI kết luận rằng sự giám sát trực tiếp các 'chuỗi suy nghĩ' của chatbots không phải giải pháp tốt, bởi điều này có thể khiến các mô hình học cách giấu hành vi sai trái của mình. Các thuật toán hiện đại ngày càng tinh vi hơn trong việc khai thác điểm yếu của tác vụ và chức năng phần thưởng, dẫn tới các 'hack phần thưởng' phức tạp trong các nhiệm vụ lập trình.
Các công ty vẫn đang loay hoay tìm giải pháp để kiểm soát các mô hình AI mặc dù đã đầu tư hàng chục tỷ đô lồng. Việc này đặt ra những thách thức lớn khi dựa vào chatbots, nhất là trong công việc quan trọng. Theo một báo cáo từ Boston Consulting Group, chỉ có 74% trong 1,000 giám đốc điều hành thấy giá trị thực từ AI, mặc dù đã có sự kỳ vọng lớn.
Nguồn: OpenAI, Gizmodo, Boston Consulting Group.