Các mô hình AI 'thị giác' có thể không nhìn thấy gì cả

Các mô hình AI thị giác chưa thực sự 'nhìn thấy' như con người, mới dừng ở mức khớp mẫu dữ liệu, gây ra những sai sót cơ bản trong các bài kiểm tra đơn giản.

: Mặc dù được quảng bá là có khả năng thị giác, các mô hình AI như GPT-4o và Gemini 1.5 Pro gặp khó khăn lớn trong các bài kiểm tra thị giác cơ bản. Nghiên cứu từ các đại học Auburn và Alberta cho thấy các mô hình này thất bại ở các tác vụ đơn giản mà trẻ em cũng thực hiện dễ dàng. Các mô hình này không thực sự 'nhìn thấy' mà chủ yếu khớp mẫu dữ liệu huấn luyện, dẫn đến các sai sót không thể chấp nhận.

Mặc dù các mô hình AI như GPT-4o và Gemini 1.5 Pro được quảng bá là có khả năng thị giác, nghiên cứu từ các đại học Auburn và Alberta cho thấy chúng gặp khó khăn lớn trong các bài kiểm tra thị giác cơ bản. Các bài kiểm tra này yêu cầu xác định các hình chồng lấp, đếm số ngũ giác hoặc xác định chữ cái được khoanh tròn, những công việc đơn giản mà người thường hay cả học sinh lớp một đều thực hiện dễ dàng.

Nghiên cứu chỉ ra rằng các mô hình này không thực sự 'nhìn thấy' mà chủ yếu khớp mẫu dữ liệu đầu vào với dữ liệu huấn luyện, dẫn đến các sai sót không thể chấp nhận. Ví dụ, khi yêu cầu xác định hai hình tròn chồng lên nhau, GPT-4o chỉ đúng hơn 95% khi các hình cách xa nhau, nhưng chỉ đúng 18% khi khoảng cách gần.

Nguyên nhân chính có thể là do dữ liệu huấn luyện tập trung nhiều vào các hình ảnh phổ biến như logo Olympic với năm vòng tròn, nhưng lại thiếu các mẫu dữ liệu với sáu hoặc bảy vòng tròn. Kết quả là các AI này không có hiểu biết thực sự về hình ảnh mà chúng 'nhìn thấy', làm giảm độ tin cậy của chúng trong một số tác vụ thị giác.