Người dùng Bluesky tranh luận về kế hoạch liên quan đến dữ liệu người dùng và đào tạo AI
Bluesky công bố lựa chọn kiểm soát dữ liệu để ngăn AI trích xuất dữ liệu công khai.

Trong một động thái mới nhất, mạng xã hội Bluesky đã công bố một đề xuất trên GitHub, giới thiệu các lựa chọn mới cho người dùng để chỉ định liệu họ có muốn các bài đăng và dữ liệu của mình bị trích xuất cho các mục đích như đào tạo AI tạo sinh và lưu trữ công cộng hay không. Đề xuất này đã được CEO Jay Graber thảo luận tại sự kiện South by Southwest, nhưng chỉ thực sự thu hút sự chú ý khi cô đăng về nó trên Bluesky vào tối thứ Sáu. Nhiều người dùng đã phản ứng với lo ngại, cho rằng kế hoạch này có thể là một sự đảo ngược cam kết của Bluesky trước đây, vốn nhấn mạnh rằng họ sẽ không bán dữ liệu người dùng cho nhà quảng cáo và không huấn luyện AI trên các bài đăng của người dùng.
Graber đã phản hồi các lo ngại này bằng cách chỉ ra rằng các công ty AI generative “đã và đang trích xuất dữ liệu công khai từ khắp nơi trên web,” bao gồm cả từ Bluesky, vì mọi thứ trên Bluesky đều công khai giống như một trang web công khai. Cô cho biết Bluesky đang cố gắng tạo ra một “tiêu chuẩn mới” để quản lý việc trích xuất đó, tương tự như tệp robots.txt mà các trang web sử dụng để giao tiếp quyền hạn của chúng với các công cụ thu thập dữ liệu web.
Trong bối cảnh tranh luận về đào tạo AI và bản quyền, robots.txt đã được nhấn mạnh, cùng với nhận thức rằng nó không có tính ràng buộc pháp lý. Bluesky khung đề xuất tiêu chuẩn của mình như một cơ chế tương tự “về cơ chế và kỳ vọng,” cung cấp “một định dạng có thể đọc được bằng máy, trong đó các tổ chức hành xử tốt được kỳ vọng tôn trọng, nhưng không có tính ràng buộc pháp lý”.
Theo đề xuất, người dùng ứng dụng Bluesky hoặc các ứng dụng khác sử dụng ATProtocol nền có thể vào cài đặt và cho phép hoặc hạn chế việc sử dụng dữ liệu Bluesky của họ vào bốn danh mục: AI tạo sinh, cầu nối giao thức, dữ liệu tập thể và lưu trữ web (chẳng hạn như Wayback Machine của Internet Archive). Nếu người dùng chỉ ra rằng họ không muốn dữ liệu của mình được sử dụng để đào tạo AI tạo sinh, đề xuất cho biết, “Các công ty và nhóm nghiên cứu xây dựng tập huấn luyện AI được kỳ vọng tôn trọng ý định này khi họ thấy, bất kể khi trích xuất dữ liệu từ web hay thực hiện chuyển giao hàng loạt bằng chính giao thức”.
Molly White, người viết bản tin Citation Needed và blog Web3 is Going Just Great, đã mô tả điều này là “một đề xuất tốt” và nói rằng thật “kỳ quặc khi thấy mọi người chỉ trích BlueSky vì điều này,” vì nó không phải “đang hoan nghênh trích xuất AI” mà thay vào đó là “đang cố gắng thêm tín hiệu chấp thuận để cho phép người dùng giao tiếp tùy chọn của họ cho việc trích xuất dữ liệu vốn đã diễn ra”. White lưu ý sự yếu kém của tín hiệu này phụ thuộc vào việc người trích xuất có tôn trọng tín hiệu này vì những lý do đạo đức hay không, và đã có một số công ty bỏ qua robots.txt hoặc sao chép trái phép tài liệu để trích xuất.
Nguồn: GitHub, Bluesky, South by Southwest, Molly White