Datacurve đợt DeepSWE mã nguồn mở này thực sự đáng giá, hỗ trợ năm ngôn ngữ, trung bình 668 dòng mã giải đáp sâu, khung Mini-SWE-Agent cũng đã ra mắt, sau này có thể đánh giá khả năng mã của các mô hình lớn bằng thước đo.

Xem bản gốc
CoinNetwork
Datacurve mở nguồn trí tuệ nhân tạo tiêu chuẩn DeepSWE, lượng mã tham khảo đạt gấp năm lần SWE-Bench
Datacurve công bố mã nguồn mở chuẩn lập trình trí tuệ nhân tạo DeepSWE, đánh giá khả năng lập trình tự chủ của các mô hình lớn. Chuẩn gồm 113 nhiệm vụ, bao phủ năm ngôn ngữ TypeScript, Go, Python, JavaScript, Rust, trung bình cần 668 dòng giải pháp tham khảo. Hướng dẫn gợi ý trung bình 2158 ký tự, nhấn mạnh suy luận sâu dưới hướng dẫn tối giản. Bài kiểm tra sử dụng khung mã nguồn mở Mini-SWE-Agent, đảm bảo tính khách quan. Tỷ lệ giải pháp của GPT-5.5 đạt 70%, GPT-5.4 và Claude-opus-4.7 lần lượt là 56%, 54%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim