Amazon đang điều tra Perplexity AI sau khi bị cáo buộc thu thập dữ liệu từ các trang web mà không có sự đồng ý
Amazon đang điều tra Perplexity AI vì cáo buộc thu thập dữ liệu không phép.

Amazon Web Services đã bắt đầu điều tra Perplexity AI về cáo buộc sử dụng crawler phá vỡ quy tắc Robots Exclusion Protocol. Cụ thể, Wired phát hiện một máy ảo do Perplexity vận hành trên máy chủ AWS, sử dụng địa chỉ IP 44.221.181.252, đã bỏ qua robots.txt và thu thập dữ liệu từ nhiều trang web khác nhau.
Theo báo cáo của Wired, máy ảo này đã truy cập nhiều lần vào các trang web nổi tiếng như The Guardian, Forbes và The New York Times trong ba tháng qua để thu thập nội dung. Wired xác minh điều này bằng cách nhập tiêu đề và mô tả ngắn của các bài báo vào chatbot của Perplexity và nhận được phản hồi gần giống với các bài báo gốc.
Đại diện Amazon cho biết khách hàng phải tuân thủ các hướng dẫn trong robots.txt khi crawl trang web, và việc vi phạm các quy định này là trái với điều khoản dịch vụ của AWS. Đại diện Perplexity, Sara Platnick, phủ nhận vi phạm và khẳng định rằng PerplexityBot của họ tuân thủ robots.txt, nhưng thừa nhận rằng nó sẽ bỏ qua khi có yêu cầu cụ thể từ người dùng. CEO của Perplexity, Aravind Srinivas, cũng thừa nhận việc sử dụng crawler bên thứ ba cùng với crawler của công ty.