AA-briefcase phát hành: Claude Fable 5 giành chiến thắng, GLM-5.2 lọt vào top 3

robot
Đang tạo bản tóm tắt
Thông báo từ Coinjie.com, AA-Briefcase cho biết, Claude Fable 5 đã giành chiến thắng trong đánh giá, trong khi GLM-5.2 xếp trong top ba. Cơ quan đánh giá Artificial Analysis đã giới thiệu chuẩn đánh giá công việc kiến thức dài hạn đầu tiên dành riêng cho các mô hình trí tuệ nhân tạo lớn, bao gồm bốn kịch bản: khoa học dữ liệu, quản lý sản phẩm, vận hành ngân hàng và chiến lược công nghiệp nặng, do các chuyên gia ngành từ Google, McKinsey và Boston Consulting phát triển, gồm 91 nhiệm vụ nhằm mô phỏng dòng dự án kinh doanh thực tế phức tạp. Kết quả cho thấy, Claude Fable 5 đạt điểm tổng hợp cao nhất, Claude Opus 4.8 đứng thứ hai và GLM-5.2 đứng thứ ba. Mặc dù Claude Fable 5 thể hiện mạnh mẽ, nhưng theo tiêu chuẩn hoàn hảo toàn diện từng nhiệm vụ, tỷ lệ hoàn hảo chỉ đạt 3%. Trong các mô hình mã nguồn mở, GLM-5.2 của Zhipu thể hiện nổi bật, điểm tổng hợp chỉ thấp hơn Claude Opus 4.8 90 điểm, nhưng chi phí vận hành chỉ bằng chưa đến 25% của nó.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 4
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
MempoolMaggie
· 4giờ trước
Claude Fable 5 đoạt chức vô địch nhưng tỷ lệ hoàn hảo chỉ 3%, con số này khá đau lòng, cho thấy các nhiệm vụ dài hạn vẫn là thử thách cực kỳ khó khăn đối với AI.
Xem bản gốcTrả lời0
SandwichAlertAgent
· 4giờ trước
Opus 4.8 vị trí thứ hai có chút khó xử, đắt đỏ nhưng chưa ổn định, Anthropic cần nghĩ cách kể chuyện như thế nào.
Xem bản gốcTrả lời0
BridgeHopRanger
· 4giờ trước
GLM-5.2 mã nguồn mở có tỷ lệ giá trị trên hiệu suất cực kỳ ấn tượng, chênh lệch điểm số 90 điểm nhưng tiết kiệm 75% chi phí, các doanh nghiệp mua sắm cần tính toán lại chi phí.
Xem bản gốcTrả lời0
GlassDomeObservatory
· 4giờ trước
91 nhiệm vụ bao phủ bốn ngành, được Google và McKinsey chứng thực, tôi tin vào giá trị của tiêu chuẩn này.
Xem bản gốcTrả lời0
  • Đã ghim