Opus 4.6/4.7 Bổ sung điểm yếu về toán học để ngang bằng với khả năng lập trình, chỉ số ECI này rất thú vị — nó đo lường độ khó tương đối giữa các mô hình, không phải so sánh với con người, vì vậy đừng hiểu nhầm thành "vượt qua nhà toán học nhân loại" nhé

Xem bản gốc
MeNews
Epoch AI công bố sơ đồ phân tích điểm mạnh của Claude: viết mã luôn là thế mạnh, Opus 4.6 và 4.7 đã khắc phục điểm yếu về toán học
Phân tích chỉ số khả năng đặc thù của Epoch AI cho thấy, dòng Claude luôn dẫn đầu về viết mã, nhưng khả năng toán học còn yếu; dữ liệu mới nhất cho thấy xu hướng này đang nhanh chóng được cải thiện. Trước đây, Claude có điểm cao hơn trong SWE-ECI so với điểm tổng hợp, và có khoảng cách với Math-ECI, nhưng Opus 4.6/4.7 đã thu hẹp hai chỉ số trong vòng 1 điểm, khắc phục điểm yếu. ECI phản ánh độ khó tương đối của nhiệm vụ giữa các mô hình, chứ không phản ánh độ khó đối với con người.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim