Theo theo dõi Beating, tổ chức đánh giá AI Vals AI đã công bố bài kiểm tra chuẩn mực trí tuệ tài chính thế hệ thứ hai (Finance Agent v2). Đây là một bài kiểm tra toàn diện mô phỏng quy trình làm việc của nhà phân tích tài chính sơ cấp, bao gồm 927 câu hỏi kiểm tra chuyên gia. Phiên bản mới của bài kiểm tra có độ khó tăng vọt, GPT 5.5 chỉ đạt tỷ lệ chính xác 51,76% để đứng đầu, trong khi Claude Opus 4.7 (51,51%) và Claude Sonnet 4.6 (51,03%) cạnh tranh rất gay gắt.

Khác với câu hỏi đơn lẻ, bài kiểm tra này yêu cầu mô hình tự tìm kiếm các đoạn liên quan trong hàng trăm trang báo cáo tài chính 10-K và 10-Q, xử lý điều chỉnh báo cáo tài chính qua các năm, và hoàn thành các phép tính nhiều bước với các số trung gian chính xác. Vals AI tiết lộ rằng, nếu áp dụng tiêu chuẩn chấm điểm nghiêm ngặt «phải đúng hoàn toàn», tất cả các mô hình tiên tiến đều có tỷ lệ chính xác dưới 40%; trong các hạng mục «mô hình tài chính» và «phân tích tiền lệ» khó nhất, điểm cao nhất chỉ đạt 23%.

Về các mô hình khác, Kimi K2.6 xếp thứ năm với 44,87%, là mô hình nội địa có điểm cao nhất; theo sau là GLM 5.1 (44,79%) và DeepSeek V4 (44,08%). Ngoài ra, chính thức trao danh hiệu «tốc độ nhanh nhất» cho Claude Opus 4.7 (thời gian tiêu tốn mỗi lần là 360 giây), trong khi đó, GLM 5.1 giành danh hiệu «tiết kiệm ngân sách nhất» (chi phí mỗi lần là 0,62 đô la).

Việc điểm số của các mô hình đồng loạt giảm sút (trong bài kiểm tra thế hệ trước, Opus 4.7 đạt 64,4%) chứng minh một điều: AI hiện tại đã có thể xử lý các truy vấn đơn giản, nhưng trong các lĩnh vực tài chính sâu đòi hỏi tuân thủ các quy chuẩn ngành cụ thể và độ chính xác số liệu cực cao, vẫn còn xa mới thay thế được các nhà phân tích con người.

4-10,39%

GLM-5,06%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.61M Phổ biến
#
IsraelStrikesIranBTCPlunges
46.59K Phổ biến
#
#DailyPolymarketHotspot
930.93K Phổ biến
#
JaneStreetReducesBitcoinETFHoldings
102.23K Phổ biến
#
TrumpVisitsChinaMay13
26.09M Phổ biến

Đã ghim

sơ đồ trang web

AI có thể thay thế nhà phân tích tài chính không? Phiên bản mới của Vals AI thất bại toàn diện, GPT 5.5 độ chính xác chỉ vượt quá một nửa một cách miễn cưỡng

Chủ đề thịnh hành

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Đã ghim