Các nhà nghiên cứu chỉ ra rằng OpenAI đã huấn luyện các mô hình AI trên các sách O'Reilly có tính phí bản quyền

OpenAI bị cáo buộc dùng sách O'Reilly có phí bản quyền để huấn luyện AI.

: Một tổ chức giám sát AI, AI Disclosures Project, đã công bố cáo buộc rằng OpenAI sử dụng sách không công khai của O'Reilly Media để huấn luyện mô hình GPT-4o. Phương pháp DE-COP được sử dụng để phát hiện nội dung bản quyền thấy rằng GPT-4o nhận diện nhiều hơn nội dung sách trả phí của O'Reilly so với các mô hình cũ. Đội ngũ nghiên cứu của Tim O'Reilly, Ilan Strauss và Sruly Rosenblat đã phân tích 13,962 đoạn văn từ 34 sách O'Reilly. OpenAI không trả lời về vấn đề này, và tổ chức thừa nhận rằng kết quả không phải bằng chứng xác thực.

Một báo cáo mới từ tổ chức giám sát AI, AI Disclosures Project, đã nêu lên những nghi vấn về cách OpenAI huấn luyện mô hình AI của mình. Báo cáo cho rằng OpenAI đã sử dụng trái phép các sách có bản quyền của O'Reilly Media để đào tạo mô hình GPT-4o của họ.

Theo báo cáo, một phương pháp có tên DE-COP, cũng được biết đến dưới cái tên 'membership inference attack,' đã được sử dụng để xác định liệu các mô hình có được huấn luyện bằng nội dung có bản quyền. Đánh giá giám định 13,962 đoạn văn từ 34 sách của O'Reilly, nhóm nghiên cứu nhận thấy rằng GPT-4o có khả năng nhận diện nội dung có bản quyền của O'Reilly nhiều hơn các mô hình cũ của OpenAI, điều này ám chỉ rằng chúng có thể đã được đào tạo trên dữ liệu này.

Các tác giả của báo cáo, Tim O'Reilly, Ilan Strauss, và Sruly Rosenblat, nhận định rằng khả năng nhận diện của các mô hình AI này có thể do các nội dung sách O'Reilly không công khai có thể đã được người dùng sao chép vào ChatGPT. Họ cũng lưu ý rằng phương pháp của mình không phải là hoàn toàn chính xác và kết quả cần được xem xét trong bối cảnh rộng hơn.

Mặc dù OpenAI đã ký thỏa thuận sử dụng dữ liệu bản quyền với một số nhà xuất bản tin tức, các thư viện truyền thông và mạng xã hội, nhưng việc huấn luyện mô hình trên các dữ liệu sách có bản quyền mà không có sự cho phép vẫn khiến công ty đối mặt với nhiều vụ kiện. Nghiên cứu còn chỉ ra rằng OpenAI có thể đã tìm đến việc thuê phóng viên và chuyên gia để tinh chỉnh đầu ra của mô hình.

Những cáo buộc này làm gia tăng mối quan ngại về đạo đức trong việc sử dụng dữ liệu có bản quyền và cách các công ty AI đang không ngừng tìm kiếm dữ liệu đào tạo có chất lượng cao. Tuy nhiên, các nhà nghiên cứu thừa nhận rằng nghiên cứu của họ có hạn chế và kết quả cần được xử lý cẩn thận.

Nguồn: AI Disclosures Project, OpenAI, Tim O'Reilly, Ilan Strauss, Sruly Rosenblat