Các công ty AI được cho là vẫn đang thu thập dữ liệu từ các website bất chấp các giao thức nhằm ngăn chặn hành vi này

Các công ty AI tiếp tục trích xuất dữ liệu web bất chấp giao thức robots.txt.

: Perplexity và các công ty AI khác đang bỏ qua giao thức robots.txt để trích xuất nội dung từ các trang web, dùng để huấn luyện công nghệ của họ. Các công ty như OpenAI và Anthropic cũng bị cáo buộc bỏ qua chỉ thị 'do not crawl'. CEO của Perplexity, Aravind Srinivas, khẳng định công ty không phớt lờ giao thức nhưng thừa nhận sử dụng crawler của bên thứ ba.

Mặc dù đã có chỉ thị robots.txt dành cho các web crawler về những trang nào không được phép truy cập, các công ty AI như Perplexity vẫn lựa chọn bỏ qua các hướng dẫn này. Việc này cho phép họ thu thập dữ liệu từ các trang web để huấn luyện các công nghệ của mình, mà không cần sự cho phép của các nhà xuất bản.

Công ty TollBit đã cảnh báo các nhà xuất bản rằng không chỉ Perplexity mà nhiều công ty AI khác cũng đang tận dụng kẽ hở này. Các công ty khác như OpenAI và Anthropic, tuy đã tuyên bố tuân thủ các chỉ thị từ robots.txt, nhưng lại được cho là cũng đã bỏ qua các chỉ thị này.

Aravind Srinivas, CEO của Perplexity, phản bác lại cáo buộc về việc không tuân theo giao thức, dù thừa nhận công ty của ông sử dụng dịch vụ crawler của bên thứ ba có thể đã không tuân thủ. Ông cho biết mối quan hệ giữa các nhà xuất bản và các công ty như Perplexity cần có sự điều chỉnh mới để phù hợp hơn với thực tiễn hiện tại.