Mô hình AI mới của DeepSeek dường như là một trong những đối thủ 'mở' tốt nhất cho đến nay
DeepSeek V3 là mô hình AI mở mạnh mẽ, vượt trội hơn nhiều mô hình hiện có.
DeepSeek V3 là một mô hình AI mạnh mẽ được phát triển bởi DeepSeek và phát hành với giấy phép mở, cho phép nhà phát triển tải xuống và sửa đổi cho các ứng dụng khác nhau. Khả năng của nó bao gồm mã hóa, dịch thuật, viết luận và email từ những đề xuất mô tả. Theo các bài kiểm tra nội bộ, DeepSeek V3 vượt trội các mô hình mở và kín khác, bao gồm cả những mô hình của Meta và OpenAI, trong các cuộc thi mã hóa và kiểm tra Aider Polyglot.
Mô hình này được huấn luyện trên một tập dữ liệu gồm 14.8 nghìn tỷ tokens và có 671 tỷ tham số, lớn hơn rất nhiều so với các đối thủ như Llama 3.1 405B. Dù cần phần cứng mạnh mẽ để chạy, DeepSeek V3 chỉ cần 2048 GPU của Nvidia và ngân sách nhỏ để phát triển, chỉ khoảng 5.5 triệu đô la, một thành tựu đáng kể. Tuy nhiên, mô hình này bị hạn chế trong các vấn đề chính trị, không phản hồi các câu hỏi liên quan đến Thiên An Môn do chịu sự giám sát của cơ quan quản lý Trung Quốc.
DeepSeek được hỗ trợ bởi High-Flyer Capital Management, công ty đầu tư định lượng của Trung Quốc, có mục tiêu đạt đến AI 'siêu thông minh'. Công ty mẹ này, dưới sự lãnh đạo của Liang Wenfeng, đã xây dựng hạ tầng máy chủ mạnh mẽ để hỗ trợ phát triển DeepSeek V3. Mặc dù có những hạn chế về chính trị, Wenfeng cho rằng AI nguồn đóng như của OpenAI chỉ là chiến lược tạm thời và không thể ngăn cản sự phát triển của các mô hình mới như DeepSeek V3.