2158 ký tự chỉ thị tối giản thúc đẩy suy luận sâu, thiết kế này rất thú vị—— không phải là xếp chồng các kỹ thuật gợi ý, mà là xem khả năng thực sự của mô hình. Claude-opus-4.7 và GPT-5.4 gần như ngang bằng, GPT-5.5 đã tạo ra khoảng cách, lợi ích của việc cập nhật phiên bản vẫn còn.

Xem bản gốc
CoinNetwork
Datacurve mở nguồn trí tuệ nhân tạo tiêu chuẩn DeepSWE, lượng mã tham khảo đạt gấp năm lần SWE-Bench
Datacurve công bố mã nguồn mở chuẩn lập trình trí tuệ nhân tạo DeepSWE, đánh giá khả năng lập trình tự chủ của các mô hình lớn. Chuẩn gồm 113 nhiệm vụ, bao phủ năm ngôn ngữ TypeScript, Go, Python, JavaScript, Rust, trung bình cần 668 dòng giải pháp tham khảo. Hướng dẫn gợi ý trung bình 2158 ký tự, nhấn mạnh suy luận sâu dưới hướng dẫn tối giản. Bài kiểm tra sử dụng khung mã nguồn mở Mini-SWE-Agent, đảm bảo tính khách quan. Tỷ lệ giải pháp của GPT-5.5 đạt 70%, GPT-5.4 và Claude-opus-4.7 lần lượt là 56%, 54%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim