Mô hình AI mới của DeepSeek dường như là một trong những đối thủ 'mở' tốt nhất cho đến nay

DeepSeek V3 là mô hình AI mở mạnh mẽ, vượt trội hơn nhiều mô hình hiện có.

: DeepSeek V3, một mô hình AI mới của DeepSeek, được công bố với giấy phép mở, cho phép tải xuống và sửa đổi cho nhiều ứng dụng khác nhau. Mô hình này vượt trội các mô hình khác như Llama 3.1 405B và GPT-4o của Meta trong các bài kiểm tra mã hóa. Được huấn luyện trên 14.8 nghìn tỷ tokens và có 671 tỷ tham số, DeepSeek V3 cần phần cứng mạnh mẽ để hoạt động hiệu quả. Tuy nhiên, quan điểm chính trị của mô hình này bị giới hạn bởi quy định của cơ quan quản lý Internet Trung Quốc.

DeepSeek V3 là một mô hình AI mạnh mẽ được phát triển bởi DeepSeek và phát hành với giấy phép mở, cho phép nhà phát triển tải xuống và sửa đổi cho các ứng dụng khác nhau. Khả năng của nó bao gồm mã hóa, dịch thuật, viết luận và email từ những đề xuất mô tả. Theo các bài kiểm tra nội bộ, DeepSeek V3 vượt trội các mô hình mở và kín khác, bao gồm cả những mô hình của Meta và OpenAI, trong các cuộc thi mã hóa và kiểm tra Aider Polyglot.

Mô hình này được huấn luyện trên một tập dữ liệu gồm 14.8 nghìn tỷ tokens và có 671 tỷ tham số, lớn hơn rất nhiều so với các đối thủ như Llama 3.1 405B. Dù cần phần cứng mạnh mẽ để chạy, DeepSeek V3 chỉ cần 2048 GPU của Nvidia và ngân sách nhỏ để phát triển, chỉ khoảng 5.5 triệu đô la, một thành tựu đáng kể. Tuy nhiên, mô hình này bị hạn chế trong các vấn đề chính trị, không phản hồi các câu hỏi liên quan đến Thiên An Môn do chịu sự giám sát của cơ quan quản lý Trung Quốc.

DeepSeek được hỗ trợ bởi High-Flyer Capital Management, công ty đầu tư định lượng của Trung Quốc, có mục tiêu đạt đến AI 'siêu thông minh'. Công ty mẹ này, dưới sự lãnh đạo của Liang Wenfeng, đã xây dựng hạ tầng máy chủ mạnh mẽ để hỗ trợ phát triển DeepSeek V3. Mặc dù có những hạn chế về chính trị, Wenfeng cho rằng AI nguồn đóng như của OpenAI chỉ là chiến lược tạm thời và không thể ngăn cản sự phát triển của các mô hình mới như DeepSeek V3.