Tài liệu tòa án tiết lộ Anthropic đã tiêu hủy hàng triệu sách in để huấn luyện AI của mình
Anthropic tiêu hủy hàng triệu sách in để huấn luyện AI, nhận phán quyết thắng lợi- fair use từ toà án.

Các tài liệu từ tòa án tiết lộ rằng Anthropic đã chi hàng triệu đô la để mua và tiêu hủy sách giấy nhằm huấn luyện các mô hình AI của mình. Vào đầu năm 2024, công ty đã thuê Tom Turvey, cựu lãnh đạo Google Books, với nhiệm vụ “thu thập mọi cuốn sách trên Trái đất”. Dưới sự chỉ đạo của ông, Anthropic đã mua hàng triệu cuốn sách cũ, cắt gáy, quét từng trang thành tệp kỹ thuật số, rồi vứt bỏ bản gốc. Những file PDF này sau đó được dùng để huấn luyện Claude — trợ lý AI của Anthropic.
Thẩm phán William Alsup phán quyết rằng hành vi số hóa rồi tiêu hủy bản giấy được xem là một "hành vi sử dụng mang tính biến đổi", tương tự như chuyển định dạng để lưu trữ hiệu quả hơn, và vì thế được bảo vệ theo nguyên tắc “fair use” (sử dụng hợp lý) của luật bản quyền Hoa Kỳ — miễn là các bản số không bị phát tán ra bên ngoài. Anthropic lập luận rằng việc tiêu hủy bản gốc càng cho thấy họ chỉ dùng sách cho mục đích huấn luyện nội bộ.
Tuy nhiên, tòa án cũng phát hiện Anthropic đã thu thập hơn 7 triệu cuốn sách từ các trang lậu như LibGen và Pirate Library Mirror — hành vi không được bảo vệ bởi nguyên tắc fair use. Do đó, phần này sẽ được đưa ra xét xử vào tháng 12. Nếu bị kết tội, Anthropic có thể đối mặt với mức phạt lên đến 150.000 USD cho mỗi tác phẩm vi phạm.
Các tài liệu còn hé lộ rằng Anthropic ban đầu đã cố gắng đàm phán bản quyền với các nhà xuất bản, nhưng sau đó từ bỏ do chi phí cao và tiến độ chậm, chuyển sang mua sách cũ từ các nhà bán lẻ lớn. Toàn bộ quá trình được cho là đã tiêu tốn hàng triệu đô la, nhưng công ty chủ yếu mua các đầu sách phổ thông, không bao gồm sách hiếm.
Tóm lại, phán quyết của tòa chia vụ việc làm hai phần: hành vi số hóa và tiêu hủy sách mua hợp pháp được coi là hợp lệ theo fair use, nhưng việc sử dụng sách lậu có khả năng vi phạm bản quyền. Phiên tòa vào tháng 12 tới có thể tạo ra tiền lệ pháp lý quan trọng về việc sách in có được phép sử dụng để huấn luyện AI hay không — và có thể ảnh hưởng đến các vụ kiện tương tự liên quan đến OpenAI, Microsoft, Meta và các công ty khác.
Nguồn: The Guardian, Washington Post, TechCrunch, Ars Technica, Reuters