Một lý do quan trọng khiến AI tổng hợp hiện nay còn hạn chế là do các mã token

Tokenization hạn chế mô hình AI tổng hợp do sự chia nhỏ văn bản thành các mã token, gây ra các vấn đề về ngôn ngữ và toán học.

: Mô hình AI tổng hợp gặp nhiều hạn chế do quá trình tokenization tạo ra các thành phần nhỏ khiến việc xử lý văn bản trở nên phức tạp hơn. Điều này ảnh hưởng đến hiệu suất của các mô hình AI trong các ngôn ngữ khác nhau và gây khó khăn trong việc giải các bài toán số học. Các phương pháp như MambaByte có thể là giải pháp, nhưng hiện vẫn đang ở giai đoạn nghiên cứu.

Các mô hình AI tổng hợp hiện nay gặp nhiều thách thức trong việc xử lý văn bản do quá trình tokenization, nghĩa là chia văn bản thành các mã token nhỏ hơn. Điều này khiến mô hình khó hiểu đúng ngữ nghĩa và gây ra nhiều sai sót trong việc phân tích ngữ cảnh và nghĩa của từ.

Các ngôn ngữ không phải tiếng Anh, như tiếng Trung và tiếng Nhật, gặp khó khăn hơn do cách tokenization không hiệu quả. Điều này dẫn đến hiệu suất kém và chi phí sử dụng cao hơn cho người dùng không sử dụng tiếng Anh, đồng thời mô hình AI cũng gặp khó khăn trong việc xử lý các ký tự số và các bài toán số học.

Phương pháp mới như MambaByte, không cần tokenization và xử lý trực tiếp trên các byte, có tiềm năng giải quyết những vấn đề này. Tuy nhiên, việc áp dụng mô hình này vẫn đang ở giai đoạn đầu nghiên cứu và hiện tại vẫn chưa khả thi về mặt tính toán cho các mô hình transformer.