Giáo sư CMU mở nguồn khung Agent Motus, phối hợp nhiều mô hình, chạy thử nghiệm SWE-bench đạt 79% và giảm một nửa chi phí

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công ty hạ tầng AI Lithos AI do Giáo sư Dimitrios Skarlatos (CEO) và Zhihao Jia (CTO) của Khoa học Máy tính tại Đại học Carnegie Mellon sáng lập đã mở nguồn khung dịch vụ Agent Motus, giấy phép Apache 2.0. Nhóm gồm các nhà nghiên cứu của CMU và Stanford, có kinh nghiệm về hạ tầng sản xuất của AWS, Google, Meta và Nvidia. Ý tưởng cốt lõi của Motus: các nhiệm vụ khác nhau phù hợp với các mô hình khác nhau, thay vì luôn chạy tất cả các bước bằng mô hình tiên tiến đắt nhất, hệ thống học từ quá trình vận hành sản xuất, tự động phân phối các nhiệm vụ con phù hợp nhất đến mô hình thích hợp nhất. Hiện tại, sau khi triển khai, Agent vẫn ở trạng thái tĩnh, khung gợi ý, mô hình và chiến lược ngữ cảnh cố định, trong khi đó Motus rút ra tín hiệu thành công của nhiệm vụ, độ trễ và chi phí từ mỗi lần chạy, liên tục tối ưu hóa. Theo dữ liệu từ trang chủ Lithos AI, trên SWE-bench Verified, phối hợp đa mô hình của Motus đạt độ chính xác 79%, cao hơn Claude Opus 4.6 với 75.8% và GPT-5.3-Codex với 72.6%, chi phí chưa bằng một nửa Opus. Trên Terminal-Bench 2.0, độ chính xác từ 64% của Opus tăng lên 80.1%, chi phí cũng giảm khoảng một nửa. Khung còn điều chỉnh chiến lược ghi nhớ ngữ cảnh dựa trên tải công việc cụ thể và tự động phát hiện các bước có thể thực thi song song để giảm độ trễ. Motus không liên kết với nhà cung cấp mô hình, hỗ trợ SDK Agents của OpenAI, SDK của Anthropic, SDK của Google và Agent xây dựng bằng Python thuần túy, cung cấp plugin Claude Code, Codex và Cursor, có thể triển khai cục bộ hoặc đẩy lên đám mây chỉ với một lệnh. Giai đoạn xem trước ban đầu cung cấp miễn phí công suất tính toán. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim