Một nghiên cứu mới cho thấy các mô hình của OpenAI 'ghi nhớ' nội dung có bản quyền

Nghiên cứu cho thấy mô hình AI của OpenAI ghi nhớ nội dung có bản quyền.

: Một nghiên cứu của các trường đại học Washington, Copenhagen và Stanford đã tìm ra cách để nhận diện dữ liệu đào tạo mà mô hình có thể 'ghi nhớ'. Phương pháp này được áp dụng lên các mô hình như GPT-4 và GPT-3.5 của OpenAI thông qua việc thử nghiệm với các từ đặc biệt. Kết quả cho thấy GPT-4 có dấu hiệu ghi nhớ một số phần của sách và bài viết có bản quyền. Abhilasha Ravichander nhấn mạnh cần sự minh bạch dữ liệu trong môi trường phát triển mô hình AI.

Một nghiên cứu mới do các học giả từ Đại học Washington, Đại học Copenhagen, và Stanford thực hiện đã khám phá ra một phương pháp mới để xác định dữ liệu đào tạo mà các mô hình như của OpenAI có thể đã 'ghi nhớ'. Họ đặc biệt tập trung vào việc sử dụng các từ 'bất ngờ cao' (high-surprisal) - những từ ít gặp hơn trong ngữ cảnh, để kiểm tra mức độ ghi nhớ của mô hình. Trong nghiên cứu, các mô hình như GPT-4 và GPT-3.5 của OpenAI đã được kiểm tra thông qua việc loại bỏ những từ này từ các văn bản và yêu cầu mô hình đoán từ bị che giấu, và kết quả cho thấy các mô hình thực sự có thể đã ghi nhớ các đoạn văn bản gốc trong quá trình đào tạo.

Kết quả của nghiên cứu tiết lộ rằng GPT-4 đã ghi nhớ một số nội dung từ các sách hư cấu phổ biến và các bài viết trên New York Times, với tốc độ thấp hơn một chút so với những tác phẩm hư cấu. Cụ thể, những mô hình này còn có khả năng ghi nhớ một phần của BookMIA, một bộ dữ liệu gồm các mẫu sách điện tử có bản quyền. Điều này làm tăng sự lo ngại về việc sử dụng các dữ liệu có bản quyền cho việc đào tạo mà không có sự cho phép từ tác giả hoặc chủ sở hữu bản quyền.

Abhilasha Ravichander từ Đại học Washington, một trong những tác giả của nghiên cứu, nhấn mạnh tầm quan trọng của sự minh bạch dữ liệu trong hệ sinh thái phát triển mô hình AI. Cô giải thích rằng để mô hình ngôn ngữ lớn được tin cậy, cần có khả năng kiểm tra, truy cứu và khám xét chúng dưới góc độ khoa học. Cô cũng nhấn mạnh nhu cầu cần thiết cho các công cụ kiểm tra và nghiên cứu lớn nhằm bảo đảm rằng dữ liệu sử dụng là phù hợp và không vi phạm.

OpenAI hiện đang phải đối mặt với các vụ kiện từ các nhà văn, lập trình viên và các chủ sở hữu quyền khác, cáo buộc công ty đã sử dụng tác phẩm của họ mà không có sự cho phép để phát triển các mô hình của mình. Dù OpenAI đã tuyên bố áp dụng các cơ chế để cho phép chủ sở hữu quyền tác giả từ chối sử dụng dữ liệu của họ, nhưng công ty vẫn khuyến khích việc giảm bớt các hạn chế về việc phát triển mô hình từ dữ liệu có bản quyền.

Cuộc nghiên cứu và kết quả của nó làm nổi bật những thay đổi cần thiết trong cách sử dụng dữ liệu đào tạo cho AI, đặc biệt là khi liên quan đến dữ liệu có bản quyền. Điều này không chỉ là một vấn đề pháp lý mà còn là vấn đề đạo đức trong việc phát triển các mô hình AI.

Nguồn: TechCrunch, University of Washington, University of Copenhagen, Stanford.