Các nhà phát triển mã nguồn mở đang chống lại các trình thu thập dữ liệu AI bằng sự khôn khéo và quyết tâm

Các dev mã nguồn mở chống lại bot AI bằng Anubis, một công cụ lọc thông minh.

: Nhiều nhà phát triển phần mềm mã nguồn mở đang phải đối mặt với việc bị bot AI thu thập dữ liệu một cách không tôn trọng quy định robot.txt. Để khắc phục tình trạng này, một nhà phát triển đã tạo ra công cụ Anubis, một công cụ kiểm tra proof-of-work trước khi cho phép truy cập vào Git, ngăn chặn bot nhưng cho phép trình duyệt của người dùng thực sự truy cập. Anubis đã nhanh chóng thu hút sự chú ý của cộng đồng mã nguồn mở, với 2.000 ngôi sao và 39 nhánh trên GitHub. Ngoài Anubis, Cloudflare cũng đã giới thiệu AI Labyrinth để chống lại các bot này.

Các nhà phát triển mã nguồn mở đang gặp phải vấn đề lớn từ các trình thu thập dữ liệu AI, còn được gọi là bot AI. Niccolò Venerandi, một nhà phát triển của hệ điều hành Plasma cho Linux, đã chỉ ra rằng những trang web lưu trữ dự án FOSS (phần mềm nguồn mở và miễn phí) bị ảnh hưởng nặng nề nhất bởi các bot này do đặc điểm công khai hơn và thiếu tài nguyên so với các sản phẩm thương mại. Vấn đề chính là những bot này thường không tuân thủ Robots Exclusion Protocol hay robot.txt.

Một ví dụ điển hình là blog cry for help của nhà phát triển FOSS Xe Iaso vào tháng Một, khi ông miêu tả việc AmazonBot liên tục tấn công một trang Git server đến mức gây ra DDoS outage. Mặc dù đã có quy định robot.txt rõ ràng, bot này vẫn tiếp tục truy cập, thậm chí giả dạng người dùng khác, làm tê liệt hệ thống. Các nhà phát triển nhận thấy rằng việc chặn các bot này là vô vọng vì chúng liên tục thay đổi IP và xâm nhập bằng nhiều cách bất hợp pháp khác.

Để phản công, Iaso đã giới thiệu Anubis, một công cụ kiểm tra proof-of-work trước khi cho phép truy cập vào Git server. Anubis, lấy tên từ một vị thần Ai Cập gian xảo, đã thành công trong việc chặn bot nhưng chấp nhận trình duyệt do người dùng điều khiển. Sự thích thú từ sự khéo léo hài hước của Anubis đã giúp nó nhanh chóng lan rộng trong cộng đồng FOSS, thu hút hàng nghìn người đóng góp và sao chép mã nguồn trên GitHub.

Không chỉ có Anubis, công cụ Nepenthes và AI Labyrinth của Cloudflare cũng đã được phát triển để đối phó với tình trạng này. Nepenthes tạo ra mạng lưới nội dung giả để bẫy bot và gây tiêu hao tài nguyên của chúng. Trong khi đó, AI Labyrinth của Cloudflare làm chậm và gây rối các bot AI không tuân thủ các chỉ thị crawl.

Ngoài các công cụ phòng ngừa, các nhà phát triển mã nguồn mở còn phê phán mạnh mẽ việc hợp pháp hóa các trình AI gây ra hệ quả tiêu cực này. Founder CEO của SourceHut, Drew DeVault, đã công khai yêu cầu ngừng việc phát triển và sử dụng các AR, LLMs và công cụ tương tự. Với tình hình hiện tại, các dự án mã nguồn mở phải đấu tranh không chỉ bằng công nghệ mà còn bằng cách kêu gọi ý thức cộng đồng.

Nguồn: TechCrunch, LibreNews