Các mô hình AI mới nhất của OpenAI có một biện pháp bảo vệ mới để ngăn chặn rủi ro sinh học
OpenAI giám sát AI mới chống nguy cơ sinh học với hệ thống an toàn.

OpenAI gần đây đã triển khai một hệ thống giám sát mới để theo dõi các mô hình AI mới nhất của họ, cụ thể là o3 và o4-mini, nhằm nhận diện các yêu cầu liên quan đến mối đe dọa sinh học và hóa học. Theo báo cáo an toàn của OpenAI, mục đích của hệ thống này là ngăn chặn các mô hình cung cấp hướng dẫn có thể giúp ai đó thực hiện các cuộc tấn công có hại. Các mô hình o3 và o4-mini đánh dấu một bước tiến lớn về khả năng so với các mô hình trước đó của OpenAI, và với tiềm năng như vậy, chúng mang lại nhiều rủi ro mới trong tay kẻ xấu.
Theo các tiêu chuẩn đánh giá nội bộ của OpenAI, o3 đã biểu hiện kỹ năng cao hơn trong việc trả lời các câu hỏi liên quan đến việc tạo ra một số loại mối đe dọa sinh học nhất định. Để ứng phó với những rủi ro này và giảm thiểu các rủi ro khác, OpenAI đã phát triển hệ thống giám sát mới, được mô tả như một "hệ thống giám sát tập trung vào an toàn".
Hệ thống này đã được tùy chỉnh đặc biệt để đánh giá các chính sách nội dung của OpenAI, và áp dụng trên các mô hình o3 và o4-mini. Nó được thiết kế để nhận diện các yêu cầu liên quan đến rủi ro sinh học và hóa học và yêu cầu các mô hình từ chối cung cấp tư vấn về các chủ đề đó. Để thiết lập tiêu chuẩn đối chiếu, OpenAI đã cho đội red team dành ra khoảng 1,000 giờ đánh dấu các cuộc hội thoại liên quan đến rủi ro sinh học từ các mô hình o3 và o4-mini.
Trong một thử nghiệm mà OpenAI mô phỏng "logic chặn" của hệ thống giám sát an toàn, các mô hình đã từ chối trả lời các yêu cầu nguy hiểm với tỷ lệ 98.7%, theo OpenAI. Tuy nhiên, công ty nhận thấy rằng thử nghiệm của họ không tính đến việc người dùng có thể thử các yêu cầu mới sau khi bị hệ thống chặn, và do đó, OpenAI cho biết họ sẽ tiếp tục dựa một phần vào sự giám sát của con người.
OpenAI đang ngày càng phụ thuộc vào các hệ thống tự động để giảm thiểu rủi ro từ các mô hình của mình. Ví dụ, để ngăn cản trình tạo hình ảnh của GPT-4o tạo ra nội dung lạm dụng tình dục trẻ em (CSAM), OpenAI cho biết họ sử dụng một hệ thống giám sát tương tự như hệ thống đã triển khai cho o3 và o4-mini. Tuy nhiên, một số nhà nghiên cứu đã lo ngại rằng OpenAI không ưu tiên an toàn đúng mức. Một trong những đối tác red-teaming của công ty, Metr, cho biết họ có tương đối ít thời gian để kiểm tra o3 trên một tiêu chuẩn cho hành vi lừa dối. Đồng thời, OpenAI đã quyết định không phát hành báo cáo an toàn cho mô hình GPT-4.1 của họ, được ra mắt trong tuần này.
Nguồn: OpenAI, Metr, Preparedness Framework, nội dung liên quan đến CSAM