BitNet của Microsoft cho thấy AI có thể làm việc chỉ với 400MB và không cần GPU

BitNet của Microsoft hoạt động hiệu quả mà không cần GPU nhờ lượng dữ liệu nhỏ chỉ 400MB.

: Microsoft đã ra mắt mô hình BitNet b1.58 2B4T với chỉ 400MB bộ nhớ và không cần GPU. Thay vì dựa vào số đếm dấu phẩy động độ chính xác cao, BitNet sử dụng lượng số hạn chế -1, 0 hoặc +1. Kỹ thuật này giúp giảm đáng kể việc sử dụng bộ nhớ và chạy mượt trên CPU tiêu chuẩn. Tuy nhiên, BitNet có một số hạn chế về phần cứng hỗ trợ và kích thước cửa sổ ngữ cảnh.

BitNet b1.58 2B4T là một mô hình ngôn ngữ lớn mới của Microsoft, được sáng tạo bởi nhóm General Artificial Intelligence. Điểm nổi bật của BitNet là khả năng hoạt động một cách hiệu quả vượt trội với chỉ 400MB bộ nhớ mà không dựa vào GPU. Mô hình này sử dụng phương pháp 'ternary quantization' cho phép lưu trữ trọng số chỉ trong ba giá trị: -1, 0 và +1. Điều này giúp giảm mức tiêu thụ bộ nhớ đáng kể, từ đó mở rộng khả năng chạy trên các thiết bị thông thường như CPU của Apple M2 mà không cần đến các GPU chuyên dụng hoặc phần cứng AI.

Với hơn hai tỷ thông số và được huấn luyện trên bốn nghìn tỷ token, tương đương với nội dung của khoảng 33 triệu cuốn sách, BitNet không chỉ sánh ngang mà đôi khi còn vượt trội hơn so với các mô hình tương tự như Llama của Meta, Gemma của Google và Qwen của Alibaba trong nhiều bài kiểm tra tiêu chuẩn. Các bài kiểm tra này bao gồm cả những vấn đề toán học ở cấp tiểu học và câu hỏi đòi hỏi suy luận cơ bản, làm nổi bật sự vượt trội của BitNet trong việc xử lý các tác vụ thông thường.

Khả năng đặc biệt của BitNet nằm ở việc tiêu thụ năng lượng hiệu quả hơn. Nhờ thực hiện chủ yếu các phép tính đơn giản, ví dụ như cộng thay vì nhân, mô hình này tiêu thụ ít hơn từ 85 đến 96% năng lượng so với các mô hình đầy đủ độ chính xác khác. Điều này có thể mở ra cơ hội chạy các AI tiên tiến trực tiếp trên các thiết bị cá nhân mà không cần siêu máy tính dựa trên đám mây, giảm thiểu đáng kể chi phí và tác động môi trường.

Tuy nhiên, BitNet không hoàn toàn hoàn hảo và vẫn có những hạn chế. Hiện tại, nó chỉ hỗ trợ phần cứng cụ thể và yêu cầu sử dụng khuôn khổ bitnet.cpp tùy chỉnh. Hơn nữa, cửa sổ ngữ cảnh của nó, tức là lượng văn bản có thể xử lý cùng lúc, vẫn nhỏ hơn so với các mô hình tiên tiến nhất hiện nay. Đây là các thử thách mà các nhà nghiên cứu hướng tới vượt qua trong tương lai, mở rộng khả năng xử lý của BitNet với hỗ trợ ngôn ngữ đa dạng hơn và khả năng xử lý văn bản dài hơn.

Phần mềm bitnet.cpp hiện có trên GitHub và tối ưu hóa cho vi xử lý, là công cụ quan trọng đảm bảo hiệu năng ấn tượng của mô hình trên các thiết bị thông dụng. Mục tiêu tiếp theo là phát triển hỗ trợ cho các loại vi xử lý khác, mở rộng khả năng ứng dụng của BitNet trong tương lai phong phú hơn. Điều này tiếp tục thúc đẩy sự đổi mới và phát triển mạnh mẽ trong lĩnh vực trí tuệ nhân tạo hiện đại.

Nguồn: TechSpot, Microsoft