Codex của OpenAI là một phần trong nhóm công cụ tác nhân lập trình mới
OpenAI công bố Codex, hệ thống mã hóa tiên tiến trong nhóm công cụ lập trình tác nhân, nhắm tự động hóa công việc lập trình phức tạp.

OpenAI đã chính thức ra mắt hệ thống viết mã mang tên Codex, một bước tiến lớn trong nhóm công cụ lập trình tác nhân. Codex được thiết kế để xử lý các nhiệm vụ lập trình phức tạp từ lệnh ngôn ngữ tự nhiên, mang lại khả năng tự động hóa cao hơn trong quá trình phát triển phần mềm. Đây được coi như một phần trong tiến trình tự nhiên của tự động hóa, cho phép máy móc đảm nhận nhiều nhiệm vụ hơn trong công việc phần mềm.
Các sản phẩm như Devin, SWE-Agent và OpenHands đang dẫn đầu trong lĩnh vực này, với mục tiêu hoạt động như người quản lý một nhóm kỹ thuật. Thay vì chỉ hỗ trợ viết mã dưới dạng tự động hoàn thiện vốn rất phổ biến, Codex và các công cụ tương đương đang hướng đến khả năng tự ra quyết định và giải quyết vấn đề viết mã phức tạp mà không cần người dùng phải can thiệp.
Công ty Cognition AI, chủ quản của Devin, đã nhận được sự quan tâm đáng kể từ cộng đồng đầu tư, với việc huy động hàng trăm triệu USD, đẩy mức định giá của công ty lên 4 tỷ USD. Tuy nhiên, mặc dù có tiềm năng lớn, các công cụ này cũng gặp phải sự chỉ trích về việc đòi hỏi sự giám sát chặt chẽ từ phía con người khi triển khai trên thực tế.
SWE-Bench là nền tảng để đo lường tiến bộ của phát triển viết mã tác nhân, nơi mà OpenHands đang giữ vị trí dẫn đầu với 65,8% số các vấn đề khó giải quyết được. Tuy OpenAI tuyên bố Codex có thể giải quyết tới 72,1% bài toán này, nhưng kết quả đó chưa được xác thực độc lập, và không thể đảm bảo rằng tỉ lệ hoàn thành cao này đảm bảo tính tự động hóa của quy trình lập trình.
Vấn đề nhãn hàng 'ảo giác' vẫn là một thách thức lớn, khiến các chuyên gia cảnh báo về việc cần có người giám sát để xét duyệt mã khi sử dụng các công cụ này. Điều này đòi hỏi một sự cải tiến đều đặn trong các mô hình nền tảng cũng như việc quản lý các vấn đề như ảo giác và tính tin cậy sẽ đóng vai trò then chốt trong việc phát triển bền vững của các hệ thống này.
Nguồn: OpenAI, TechCrunch, Bloomberg