OpenAI đã huấn luyện o1 và o3 để 'suy nghĩ' về chính sách an toàn của mình

OpenAI phát triển 'deliberative alignment' nhằm cải thiện độ an toàn của mô hình AI o1 và o3.

: OpenAI đã giới thiệu phương pháp 'deliberative alignment' để cải tiến độ an toàn của các mô hình AI o-series. Phương pháp này giúp mô hình suy nghĩ theo chính sách an toàn của OpenAI trong quá trình trả lời người dùng. Nó cũng giúp o1 và o3 từ chối những câu hỏi không an toàn và trả lời tốt những câu hỏi an toàn. Việc sử dụng dữ liệu tổng hợp thay vì dữ liệu do con người tạo ra giúp tối ưu hóa quá trình huấn luyện.

OpenAI đã công bố phương pháp mới có tên là 'deliberative alignment', được áp dụng cho các mô hình AI o1 và o3. Phương pháp này cho phép mô hình suy nghĩ theo chính sách an toàn của OpenAI khi người dùng nhập yêu cầu, nhằm đảm bảo độ an toàn trong câu trả lời.

Qua việc sử dụng 'deliberative alignment', o1 và o3 có thể từ chối các câu hỏi không an toàn như yêu cầu tạo vũ khí hoặc các hoạt động phạm pháp. Phương pháp này được bổ sung qua chuỗi suy nghĩ (chain-of-thought), giúp mô hình phân tích và trả lời câu hỏi một cách có trách nhiệm.

OpenAI đã không dùng dữ liệu do con người tạo ra mà thay vào đó dùng dữ liệu tổng hợp do mô hình AI tạo ra. Điều này giúp cắt giảm chi phí và cải thiện tốc độ xử lý của mô hình, đồng thời cho phép huấn luyện mô hình để tự đưa ra các quyết định phù hợp hơn với giá trị con người.