Ramp phát hành chuẩn riêng tư SWE-Bench: Claude Fable 5 giành chiến thắng với tỷ lệ thắng 87,5%

robot
Đang tạo bản tóm tắt
Thông báo từ CoinWorld, Ramp đã phát hành tiêu chuẩn kiểm thử riêng Ramp SWE-Bench dành cho các trí tuệ nhân tạo mã hóa thông minh tiên tiến. Tiêu chuẩn này bao gồm 80 nhiệm vụ phát triển backend xuất phát từ môi trường sản xuất thực tế của Ramp, nhằm giải quyết vấn đề rò rỉ dữ liệu và bão hòa chỉ số do dữ liệu đánh giá công khai bị ảnh hưởng bởi quá trình huấn luyện mô hình trước đó. Dựa trên kết quả đánh giá so sánh của 14 mô hình được công bố, Claude Fable 5 mới của Anthropic đạt tỷ lệ giải quyết cao nhất với 87,5%, đứng đầu bảng xếp hạng, Claude Opus 4.7 và GPT-5.5 đồng hạng thứ hai với tỷ lệ giải quyết đều là 83,75%. Dữ liệu kiểm thử còn tiết lộ sự cân đối giữa giá cả và hiệu năng của các mô hình khác nhau, trong đó mô hình nội địa Kimi K2.6 và GLM 5.1 có tỷ lệ giải quyết gần bằng nhau, lần lượt là 72,5% và 71,25%, nhưng chi phí trung bình của Kimi K2.6 là 0,69 USD, rẻ hơn khoảng 34% so với GLM 5.1.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
VolatilityOfToastingBread
· 2giờ trước
Rò rỉ dữ liệu thực sự là vấn đề lớn, chỉ có kiểm tra riêng tư mới có sức thuyết phục
Xem bản gốcTrả lời0
Lemon-FlavoredLiquidation
· 2giờ trước
Giá của Claude có thể đạt được thành tích này, vậy chi phí hạ tầng của Anthropic đã giảm như thế nào?
Xem bản gốcTrả lời0
RetroRadioSignal
· 2giờ trước
Kimi có mức giá rất hợp lý, 0.69 đô la còn cần gì hơn thế nữa
Xem bản gốcTrả lời0
  • Đã ghim