Một lý do quan trọng khiến AI tổng hợp hiện nay còn hạn chế là do các mã token
Tokenization hạn chế mô hình AI tổng hợp do sự chia nhỏ văn bản thành các mã token, gây ra các vấn đề về ngôn ngữ và toán học.

Các mô hình AI tổng hợp hiện nay gặp nhiều thách thức trong việc xử lý văn bản do quá trình tokenization, nghĩa là chia văn bản thành các mã token nhỏ hơn. Điều này khiến mô hình khó hiểu đúng ngữ nghĩa và gây ra nhiều sai sót trong việc phân tích ngữ cảnh và nghĩa của từ.
Các ngôn ngữ không phải tiếng Anh, như tiếng Trung và tiếng Nhật, gặp khó khăn hơn do cách tokenization không hiệu quả. Điều này dẫn đến hiệu suất kém và chi phí sử dụng cao hơn cho người dùng không sử dụng tiếng Anh, đồng thời mô hình AI cũng gặp khó khăn trong việc xử lý các ký tự số và các bài toán số học.
Phương pháp mới như MambaByte, không cần tokenization và xử lý trực tiếp trên các byte, có tiềm năng giải quyết những vấn đề này. Tuy nhiên, việc áp dụng mô hình này vẫn đang ở giai đoạn đầu nghiên cứu và hiện tại vẫn chưa khả thi về mặt tính toán cho các mô hình transformer.