AIMPACT Tin nhắn, ngày 14 tháng 5 (UTC+8), theo theo dõi của Beating, tổ chức đánh giá AI Vals AI đã công bố bài kiểm tra chuẩn mới của thế hệ thứ hai cho các trí tuệ tài chính (Finance Agent v2). Đây là một bài kiểm tra toàn diện mô phỏng quy trình làm việc của nhà phân tích tài chính sơ cấp, gồm 927 câu hỏi do chuyên gia kiểm duyệt. Bài kiểm tra mới có độ khó tăng mạnh, GPT 5.5 chỉ đạt 51,76% chính xác để đứng đầu, trong khi Claude Opus 4.7 (51,51%) và Claude Sonnet 4.6 (51,03%) cạnh tranh rất gay gắt. Không giống như câu hỏi đơn lẻ, bài kiểm tra yêu cầu mô hình tự tìm các đoạn liên quan trong hàng trăm trang báo cáo tài chính 10-K và 10-Q, xử lý điều chỉnh báo cáo tài chính qua các năm, và hoàn thành các phép tính nhiều bước với các số trung gian chính xác. Vals AI tiết lộ rằng, nếu áp dụng tiêu chuẩn chấm điểm nghiêm ngặt “phải đúng hoàn toàn”, tất cả các mô hình tiên tiến đều có tỷ lệ chính xác dưới 40%; trong các hạng mục khó nhất như “mô hình tài chính” và “phân tích tiền lệ”, điểm cao nhất chỉ đạt 23%. Về các mô hình khác, Kimi K2.6 xếp thứ năm với 44,87%, là mô hình nội địa có điểm cao nhất; theo sau là GLM 5.1 (44,79%) và DeepSeek V4 (44,08%). Ngoài ra, chính thức trao danh hiệu “tốc độ nhanh nhất” cho Claude Opus 4.7 (thời gian mỗi lần chạy 360 giây), trong khi GLM 5.1 nhận danh hiệu “tiết kiệm ngân sách nhất” (chi phí mỗi lần chạy 0,62 đô la). Sự giảm điểm chung của các bài kiểm tra này (lần trước Opus 4.7 đạt 64,4%) chứng minh một điều: AI hiện tại đã có thể xử lý các truy vấn đơn giản, nhưng trong các lĩnh vực tài chính sâu đòi hỏi tuân thủ các quy chuẩn ngành và độ chính xác số liệu cực cao, vẫn còn xa mới thay thế được các nhà phân tích con người. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.94M Phổ biến
#
CLARITYActPassesSenateCommittee
3.58M Phổ biến
#
IsraelStrikesIranBTCPlunges
47.35K Phổ biến
#
#DailyPolymarketHotspot
976.02K Phổ biến
#
BitcoinVShapedReversalBack
227.15M Phổ biến

Đã ghim

sơ đồ trang web

AI có thể thay thế nhà phân tích tài chính không? Phiên bản mới của Vals AI thất bại toàn diện, GPT 5.5 tỷ lệ chính xác chỉ vượt quá nửa

Chủ đề thịnh hành

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Đã ghim