Deep Cogito ra mắt từ chế độ ẩn với các mô hình AI lai về 'lý luận'
Deep Cogito ra mắt AI lai chuyển đổi giữa 'lý luận' và không lý luận, cạnh tranh DeepSeek, Meta. Sáng lập bởi Drishan Arora, Dhruv Malhotra.

Deep Cogito đã xuất hiện từ chế độ bí mật với một loạt các mô hình trí tuệ nhân tạo (AI) có thể chuyển đổi giữa chế độ “lý luận” và không lý luận. Những mô hình lý luận như o1 của OpenAI đã thể hiện tiềm năng lớn trong các lĩnh vực như toán học và vật lý, nhờ vào khả năng tự kiểm tra hiệu quả bằng cách làm việc qua các vấn đề phức tạp từng bước một. Tuy nhiên, lý luận đi kèm với chi phí cao hơn về mặt tính toán và độ trễ. Đó là lý do tại sao các phòng thí nghiệm như Anthropic đang theo đuổi kiến trúc mô hình “lai” kết hợp các thành phần lý luận với các yếu tố phi lý luận tiêu chuẩn. Các mô hình lai có thể nhanh chóng trả lời các câu hỏi đơn giản trong khi dành thêm thời gian cân nhắc về những truy vấn khó hơn.
Tất cả các mô hình của Deep Cogito, được gọi là Cogito 1, đều là mô hình lai. Cogito tuyên bố rằng chúng vượt trội hơn so với các mô hình mở tốt nhất có cùng kích thước, bao gồm các mô hình từ Meta và startup AI Trung Quốc DeepSeek. Công ty giải thích rằng mỗi mô hình có thể trả lời trực tiếp hoặc tự phản ánh trước khi trả lời (giống như các mô hình lý luận). Tất cả được phát triển bởi một nhóm nhỏ trong khoảng 75 ngày.
Các mô hình Cogito 1 có quy mô từ 3 tỷ tham số đến 70 tỷ tham số, và Cogito cho biết các mô hình có lên đến 671 tỷ tham số sẽ tham gia chúng trong những tuần và tháng tới. Tham số tương ứng đại khái với khả năng giải quyết vấn đề của mô hình, với nhiều tham số thường tốt hơn. Cogito 1 không được phát triển từ đầu. Deep Cogito xây dựng trên các mô hình mở Llama của Meta và Qwen của Alibaba để tạo ra mô hình của riêng mình. Công ty cho biết đã áp dụng các phương pháp huấn luyện mới để nâng cao hiệu suất của các mô hình cơ bản và cho phép lý luận có thể bật tắt.
Dựa trên kết quả kiểm tra nội bộ của Cogito, mô hình Cogito 70B lớn nhất, với lý luận, vượt trội hơn mô hình lý luận R1 của DeepSeek trong một số đánh giá về toán học và ngôn ngữ. Cogito 70B với lý luận bị vô hiệu hóa cũng vượt qua mô hình Llama 4 Scout mới phát hành của Meta trên LiveBench, một bài kiểm tra AI đa dụng.
Mỗi mô hình Cogito 1 đều có sẵn để tải xuống hoặc sử dụng qua API trên các nhà cung cấp đám mây Fireworks AI và Together AI. Hiện tại, chúng tôi vẫn đang ở giai đoạn đầu của đường cong tỉ lệ của mình, chỉ sử dụng một phần nhỏ tính toán thường được dành riêng cho việc huấn luyện / tiếp tục các mô hình ngôn ngữ lớn truyền thống. Tiến về phía trước, chúng tôi đang nghiên cứu các phương pháp hậu huấn luyện bổ sung để tự cải thiện.
Nguồn: TechCrunch, Deep Cogito, PitchBook