Reddit ngăn chặn Wayback Machine lưu trữ các bài đăng

Reddit hạn chế Wayback Machine để các công ty AI không tự do trích xuất dữ liệu như trước mà không trả phí.

: Reddit đã ngăn chặn Internet Archive's Wayback Machine khỏi việc lưu trữ hầu hết các bài đăng trên trang web của mình. Động thái này xuất phát từ lo ngại rằng các công ty AI đang thu thập dữ liệu trái phép từ nền tảng này để phát triển mô hình AI mà không trả phí sử dụng dữ liệu. Reddit đã tuyên bố rằng họ có bằng chứng cho thấy một số công ty AI đang lợi dụng Wayback Machine để bỏ qua các chính sách của Reddit. Các biện pháp hạn chế này nhằm bảo vệ quyền riêng tư người dùng và duy trì nguồn doanh thu từ cấp phép dữ liệu.

Reddit đang thực hiện các biện pháp để hạn chế Internet Archive’s Wayback Machine vì lo ngại rằng dữ liệu bài đăng của nó đang bị các công ty trí tuệ nhân tạo thu thập trái phép. Reddit đã quyết định không cho phép Wayback Machine lưu trữ các trang chi tiết bài đăng, bình luận hoặc hồ sơ người dùng. Thay vào đó, nền tảng chỉ cho phép truy cập vào trang chủ của mình. Điều này xuất phát từ sự phát hiện rằng một số công ty AI sử dụng Wayback Machine để trích xuất nội dung mà không tuân thủ các quy định về bảo vệ dữ liệu.

Các công ty AI đã sử dụng dữ liệu từ Reddit để đào tạo các mô hình AI, điều này được Reddit cho phép miễn là các công ty đó trả phí. Reddit từng có ý định không hạn chế những đối tượng có thiện chí như Internet Archive, nhưng nghi ngờ rằng tổ chức này có thể giúp các công ty AI lách luật phí cấp phép đã dẫn đến quyết định giới hạn truy cập.

Internet Archive, tổ chức phi lợi nhuận chuyên xây dựng thư viện kỹ thuật số rộng lớn bao gồm các trang web và nội dung trực tuyến khác, đã bị ảnh hưởng bởi động thái này của Reddit. Công cụ cách điệu của họ, Wayback Machine, cung cấp dịch vụ lưu trữ và tạo bản sao của các trang web cho phép người dùng xem lại chúng ở những thời điểm cụ thể trong quá khứ.

Reddit đang thắt chặt kiểm soát dữ liệu của mình. Thay vì chia sẻ dữ liệu miễn phí, Reddit đã thực hiện các thỏa thuận với các tập đoàn lớn như Google và OpenAI, định hình khả năng kiếm tiền từ dữ liệu trong kỷ nguyên AI. Gần đây, Reddit cũng đã kiện công ty phát triển mô hình trí tuệ nhân tạo Anthropoc vì sử dụng dữ liệu Reddit một cách trái phép.

Quyết định của Reddit nhấn mạnh sự quan trọng của việc bảo vệ và kiểm soát dữ liệu trong bối cảnh phát triển và tối ưu hóa các mô hình trí tuệ nhân tạo hiện nay.

Nguồn: Gizmodo, The Verge