Epoch AI phát hành sơ đồ phân tích chuyên môn của Claude: khả năng viết mã luôn vững vàng, Opus 4.6 và 4.7 đã khắc phục điểm yếu về toán học

robot
Đang tạo bản tóm tắt
AIMPACT tin nhắn, ngày 16 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, phân tích mới nhất về Chỉ số khả năng đặc thù lĩnh vực (Domain-specific ECI) do Epoch AI công bố, tiết lộ rằng các mô hình dòng Claude của Anthropic luôn thể hiện khả năng viết mã mạnh, yếu về toán học. Tuy nhiên, dữ liệu mới nhất cho thấy hiện tượng lệch lạc này đang nhanh chóng giảm bớt.
Theo tính toán, trong nhiều thế hệ mô hình trước đây, Claude luôn duy trì hiệu suất cao hơn điểm tổng hợp của nó trong bài kiểm tra tiêu chuẩn kỹ thuật phần mềm (SWE-ECI), trong khi luôn có khoảng cách trong bài kiểm tra tiêu chuẩn toán học (Math-ECI). Các mô hình Opus 4.6 và 4.7 mới phát hành đã rút ngắn khoảng cách giữa điểm toán học và điểm tổng hợp xuống dưới 1 điểm, khắc phục điểm yếu trước đó.
Cơ chế tính ECI so sánh hiệu suất tương đối giữa các mô hình lớn, do đó nó phản ánh trực tiếp độ khó trung bình của nhiệm vụ đối với AI, chứ không phải đối với con người.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Half-SectionedSucculent
· 47phút trước
Chỉ số độ khó tương đối thú vị hơn điểm tuyệt đối, nó xem xét sự thu hẹp khoảng cách thực tế giữa các mô hình
Xem bản gốcTrả lời0
GateUser-c3de680b
· 1giờ trước
Opus 4.6/4.7 Đợt tăng cường này yếu điểm rất ổn định, mã code mạnh mẽ, toán học cũng theo kịp, tính đa dụng mới thực sự là hàng đầu trong nhóm đầu
Xem bản gốcTrả lời0
GateUser-5578154d
· 2giờ trước
Claude cuối cùng đã bắt đầu thể hiện khả năng toán học của mình
Xem bản gốcTrả lời0
BridgeHopster
· 2giờ trước
Khoảng cách trong vòng một phút, làm tròn là không có điểm yếu nào
Xem bản gốcTrả lời0
SudoSage
· 2giờ trước
SWE và Toán học đều cao, thế hệ Opus này có thể gọi là tuyển thủ toàn năng rồi
Xem bản gốcTrả lời0