Mô hình mới nhất của OpenAI sẽ ngăn chặn lỗ hổng 'bỏ qua tất cả các hướng dẫn trước'
OpenAI ra mắt GPT-4o Mini với phương pháp 'instruction hierarchy' nhằm ngăn chặn lỗ hổng 'ignore all previous instructions'.
OpenAI vừa ra mắt mô hình GPT-4o Mini, sử dụng phương pháp mới gọi là 'instruction hierarchy' để ngăn chặn lỗ hổng 'ignore all previous instructions'. Phương pháp này giúp mô hình ưu tiên các hướng dẫn từ nhà phát triển hơn là các lệnh không mong muốn từ người dùng nhằm lạm dụng và phá vỡ chức năng của chatbot.
Olivier Godement, lãnh đạo sản phẩm nền tảng API tại OpenAI, cho biết phương pháp này sẽ giúp mô hình an toàn hơn bằng cách giúp mô hình ưu tiên các hệ thống thông điệp từ nhà phát triển. Điều này là cần thiết trước khi OpenAI triển khai rộng rãi các tác nhân tự động hóa kỹ thuật số, giúp ngăn chặn việc mô hình bị lạm dụng để thực hiện các tác vụ không mong muốn.
Tuy nhiên, để đạt được sự tin cậy từ người dùng, OpenAI vẫn cần đầu tư nhiều vào nghiên cứu và phát triển an ninh. Doanh nghiệp đã gặp nhiều vấn đề về an toàn trong quá khứ, từ các yêu cầu về minh bạch đến sự ra đi của một số nhà nghiên cứu quan trọng. Việc bảo vệ mô hình khỏi các lỗ hổng sẽ giúp tăng cường sự tin tưởng từ người dùng trong tương lai.