Thông báo từ Coinjie.com, AA-Briefcase cho biết, Claude Fable 5 đã giành chiến thắng trong đánh giá, trong khi GLM-5.2 xếp trong top ba. Cơ quan đánh giá Artificial Analysis đã giới thiệu chuẩn đánh giá công việc kiến thức dài hạn đầu tiên dành riêng cho các mô hình trí tuệ nhân tạo lớn, bao gồm bốn kịch bản: khoa học dữ liệu, quản lý sản phẩm, vận hành ngân hàng và chiến lược công nghiệp nặng, do các chuyên gia ngành từ Google, McKinsey và Boston Consulting phát triển, gồm 91 nhiệm vụ nhằm mô phỏng dòng dự án kinh doanh thực tế phức tạp. Kết quả cho thấy, Claude Fable 5 đạt điểm tổng hợp cao nhất, Claude Opus 4.8 đứng thứ hai và GLM-5.2 đứng thứ ba. Mặc dù Claude Fable 5 thể hiện mạnh mẽ, nhưng theo tiêu chuẩn hoàn hảo toàn diện từng nhiệm vụ, tỷ lệ hoàn hảo chỉ đạt 3%. Trong các mô hình mã nguồn mở, GLM-5.2 của Zhipu thể hiện nổi bật, điểm tổng hợp chỉ thấp hơn Claude Opus 4.8 90 điểm, nhưng chi phí vận hành chỉ bằng chưa đến 25% của nó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

3 thích

Phần thưởng
3
4
1
Retweed

Bình luận

Thêm một bình luận

MempoolMaggie

· 4giờ trước

Claude Fable 5 đoạt chức vô địch nhưng tỷ lệ hoàn hảo chỉ 3%, con số này khá đau lòng, cho thấy các nhiệm vụ dài hạn vẫn là thử thách cực kỳ khó khăn đối với AI.

Xem bản gốcTrả lời0

SandwichAlertAgent

· 4giờ trước

Opus 4.8 vị trí thứ hai có chút khó xử, đắt đỏ nhưng chưa ổn định, Anthropic cần nghĩ cách kể chuyện như thế nào.

Xem bản gốcTrả lời0

BridgeHopRanger

· 4giờ trước

GLM-5.2 mã nguồn mở có tỷ lệ giá trị trên hiệu suất cực kỳ ấn tượng, chênh lệch điểm số 90 điểm nhưng tiết kiệm 75% chi phí, các doanh nghiệp mua sắm cần tính toán lại chi phí.

Xem bản gốcTrả lời0

GlassDomeObservatory

· 4giờ trước

91 nhiệm vụ bao phủ bốn ngành, được Google và McKinsey chứng thực, tôi tin vào giá trị của tiêu chuẩn này.

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
MyGateTradeStory
859,5K Phổ biến
#
WarshDebutsAsFedHoldsRatesSteady
1,44M Phổ biến
#
IsraelStrikesIranBTCPlunges
59,33K Phổ biến
#
PredictWorldCup🇺🇸vs🇵🇾
885,38K Phổ biến
#
TradFiCFDGoldMaster
1,1M Phổ biến

Đã ghim

sơ đồ trang web

AA-briefcase phát hành: Claude Fable 5 giành chiến thắng, GLM-5.2 lọt vào top 3

Chủ đề thịnh hành

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Đã ghim