Pruna AI mở mã nguồn bộ khung tối ưu hóa mô hình AI của mình
Pruna AI phát hành mã nguồn mở khung tối ưu hóa mô hình AI.

Pruna AI, một startup đến từ châu Âu, đã quyết định mở mã nguồn bộ khung tối ưu hóa mô hình AI mà họ phát triển. Bộ khung này ứng dụng các phương pháp nâng cao hiệu suất, bao gồm caching (lưu trữ đệm), pruning (cắt tỉa), quantization (lượng tử hóa) và distillation (chưng cất), cho các mô hình AI hiện có. Theo lời John Rachwan, đồng sáng lập kiêm CTO của Pruna AI, khung này còn giúp chuẩn hóa việc lưu trữ và tải mô hình đã được nén, áp dụng các phương pháp nén và đánh giá hiệu quả nén sau khi thực hiện. John Rachwan cho biết: "Chúng tôi giống như cách Hugging Face chuẩn hóa transformers và diffusers, cách gọi chúng, cách lưu trữ, tải chúng, v.v. Chúng tôi đang làm điều tương tự, nhưng cho các phương pháp nâng cao hiệu suất." Trong khi các phòng thí nghiệm lớn về AI đã sử dụng nhiều phương pháp nén khác nhau như OpenAI với distillation để tạo ra các phiên bản mô hình nhanh hơn, Pruna AI chủ yếu đang tập trung vào các mô hình tạo hình ảnh và video hiện nay.
Việc Pruna AI mở mã nguồn là một bước đi lớn trong việc làm phổ biến các phương pháp nén hiệu quả cho các nhà phát triển AI. Bộ khung này không chỉ cho phép người dùng truy cập vào ánh sáng cách thức nén trên cùng một nền tảng mà còn đưa ra một tiêu chuẩn chung cho cộng đồng. Các công ty sử dụng bộ khung của Pruna có khả năng đánh giá liệu việc nén có ảnh hưởng lớn đến chất lượng mô hình và có thể nhận thấy rõ ràng lợi ích về hiệu suất. Một trong các tính năng nổi bật sắp ra mắt của Pruna AI chính là một agent tối ưu hóa có khả năng tự động điều chỉnh mô hình sao cho vừa đảm bảo tốc độ xử lý vừa không mất đi chính xác quá 2%, như Rachwan đã giới thiệu: "Bạn chỉ cần cung cấp mô hình của bạn, nói: ‘Tôi muốn tốc độ nhanh hơn nhưng đừng để mất tính chính xác quá 2%.’ Và agent sẽ thực hiện nhiệm vụ của mình."
Khung tối ưu hóa này không chỉ áp dụng cho mô hình ngôn ngữ lớn (Large Language Models), mà còn hỗ trợ các mô hình khác như mô hình diffusion, chuyển đối thoại thành văn bản và mô hình nhận dạng hình ảnh. Những người sử dụng hiện tại của Pruna AI bao gồm Scenario và PhotoRoom đang tập trung vào các mô hình tạo hình ảnh và video. Startup này đã huy động được 6,5 triệu đô la trong vòng gọi vốn seed gần đây, với sự đầu tư từ EQT Ventures, Daphni, Motier Ventures và Kima Ventures. Đối với phiên bản chuyên nghiệp, Pruna AI tính phí theo giờ, tương tự như cách mà người dùng thuê GPU qua các dịch vụ đám mây.
Trong thị trường tính toán hiệu quả đang phát triển, việc tối ưu hóa mô hình AI không chỉ là việc tiết kiệm tài nguyên mà còn là yếu tố quan trọng trong việc triển khai AI rộng rãi. Khả năng cắt giảm chi phí lưu trữ và thực hiện mô hình đã khiến cho Pruna AI trở thành một công cụ quan trọng cho các công ty AI, đặc biệt khi một mô hình là nhân tố cốt lõi trong cơ sở hạ tầng AI của họ. Ví dụ, Pruna AI đã làm cho một mô hình Llama nhỏ hơn 8 lần mà vẫn giữ được hầu hết chất lượng nhờ bộ khung nén của mình. Điều này không chỉ cho phép các công ty tiết kiệm chi phí mà còn nâng cấp khả năng xử lý dữ liệu một cách linh hoạt hơn.
Sự phát triển của công nghệ AI đã thúc đẩy sự quan tâm đông đảo đến các phương pháp cải tiến hiệu suất, và Pruna AI đóng vai trò như một máy chủ tiên phong trong việc chuẩn hóa và dễ dàng hóa các kỹ thuật này. Với việc mở mã nguồn của bộ khung này, Pruna AI không chỉ thúc đẩy nghiên cứu và phát triển trong lĩnh vực AI mà còn khuyến khích các nhà phát triển và công ty áp dụng các phương pháp nén một cách thuận tiện và hiệu quả nhất.
Nguồn: TechCrunch, Pruna AI