Các công cụ tìm kiếm AI không đạt bài kiểm tra độ chính xác, nghiên cứu cho thấy tỷ lệ lỗi là 60%

Nghiên cứu cho thấy công cụ tìm kiếm AI có tỉ lệ lỗi 60%, với Grok-3 lên đến 96%.

: Nghiên cứu của The Tow Center for Digital Journalism đánh giá độ chính xác của tám công cụ tìm kiếm AI, cho thấy tỷ lệ lỗi tập thể lên đến 60%, trong đó Grok-3 Search có tỷ lệ lỗi cao nhất 96%. Các mô hình ngôn ngữ lớn như ChatGPT có xu hướng cung cấp thông tin sai lệch một cách đầy thuyết phục, với ChatGPT Search chỉ đạt độ chính xác hoàn toàn 28% và sai hoàn toàn 57%. Công cụ của X - Grok AI có độ chính xác thấp nhất, trong khi các phiên bản trả phí như Perplexity Pro tuy cải thiện độ chính xác nhưng vẫn có tỷ lệ lỗi đáng kể. Dù có tranh cãi, một số người dùng, như Lance Ulanoff từ TechRadar, vẫn đánh giá cao ChatGPT Search vì tốc độ, giao diện và trải nghiệm không quảng cáo.

Nghiên cứu thực hiện bởi The Tow Center for Digital Journalism đã kiểm tra độ chính xác của tám công cụ tìm kiếm AI khác nhau. Những công cụ này bao gồm ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search, và Copilot. Quá trình đánh giá dựa trên 200 bài báo từ 20 nhà xuất bản, nhằm kiểm tra mức độ chính xác của việc trích dẫn bài báo, tổ chức tin tức và URL, cho thấy các công cụ AI có tỷ lệ lỗi tập thể là 60%. Đáng chú ý là Grok-3 Search với tỷ lệ lỗi lên đến 96%.

Nghiên cứu chỉ ra rằng các mô hình ngôn ngữ lớn (LLM) như ChatGPT có xu hướng "nói dối" với độ tin cậy cao, dù thông tin sai lệch. Nhiều công cụ tiếp tục đưa ra thông tin không chính xác dù đã thừa nhận sai sót, như trường hợp của ChatGPT Search, công cụ duy nhất trả lời toàn bộ 200 truy vấn, nhưng chỉ đạt chính xác hoàn toàn 28% và bị sai hoàn toàn 57%.

Điểm đáng chú ý là công cụ của X - Grok AI, đặc biệt là Grok-3 Search, có tỷ lệ không chính xác cao nhất với 94%. Ngược lại, các phiên bản có phí của công cụ như Perplexity Pro hay Grok-3 Search tuy có tỷ lệ trả lời chính xác cao hơn, nhưng lại có tỷ lệ lỗi đáng kể.

Mặc dù có nhiều ý kiến khác nhau, như Lance Ulanoff từ TechRadar tuyên bố ông sẽ không bao giờ dùng Google nữa sau khi trải nghiệm ChatGPT Search. Ông cho rằng ChatGPT Search nhanh chóng, nhạy bén và chính xác, với giao diện sạch đẹp không có quảng cáo.

Nghiên cứu này gợi nhắc đến bài viết của Ted Gioia năm 2023, nơi ông phát hiện nhiều lời hồi đáp "có vẻ dối trá" từ ChatGPT. Các nhà nghiên cứu đã khẳng định rằng công nghệ đang vượt xa sự minh bạch từ các công ty về tính chính xác, mặc dù vẫn thu phí từ $20 đến $200 mỗi tháng.

Nguồn: The Tow Center for Digital Journalism, TechSpot, Columbia Journalism Review, TechRadar, The Honest Broker, Ted Gioia.