ME AI Thông báo, theo dõi hoạt động Beating, Đại học California tại Berkeley RDI đứng đầu, phối hợp với hàng trăm chuyên gia ngành, đã ra mắt chuẩn đánh giá trí tuệ nhân tạo mới Agents' Last Exam (ALE), dùng để đánh giá khả năng của các trí tuệ nhân tạo hoàn thành công việc chuyên môn số hóa thực tế. ALE bao gồm 55 lĩnh vực phụ của chuyên môn số hóa, thu thập hơn 1500 nhiệm vụ xác thực từ các dự án thực tế của các chuyên gia con người, hỗ trợ xác nhận kết quả trong môi trường tương tác GUI và CLI. Đợt thử nghiệm đầu tiên đã bao gồm các hệ thống tiên tiến như Fable 5, GPT-5.5 và Composer 2.5. So sánh theo tiêu chuẩn mới nhất trên trang chính thức cho thấy, trong các nhiệm vụ khó nhất đòi hỏi liên tục suy luận và kiến thức chuyên sâu, tất cả các trí tuệ nhân tạo được thử nghiệm đều đạt tỷ lệ thành công là 0%, Fable 5 mới ra mắt tuần này cũng đã nộp bài trắng. Nguyên nhân chính là do đánh giá kích hoạt chính sách an toàn, khoảng 35% nhiệm vụ của Fable 5 bị quay trở lại chạy trên phiên bản cũ Opus 4.8, dẫn đến hiệu suất tổng thể không bằng các bảng xếp hạng khác. Về chi phí API cho từng nhiệm vụ, Fable 5 khoảng 15.70 USD, cao hơn nhiều so với GPT-5.5 là 3.80 USD và Composer 2.5 là 1.33 USD, chi phí cho cùng một nhiệm vụ cao gấp 4 đến 12 lần. Các thử nghiệm còn phát hiện, nguyên nhân phổ biến nhất khiến trí tuệ nhân tạo thất bại là tuyên bố thành công quá sớm, vội vàng kết thúc mà không thực sự xác nhận kết quả, thậm chí bỏ sót tệp hoặc tính toán sai dữ liệu. Đối với trí tuệ nhân tạo dòng lệnh, nhóm đánh giá đã phát hành đồng thời bộ con ALE-CLI. So với Terminal-Bench và SWE-bench-Pro đã có, ALE-CLI bao gồm 40 lĩnh vực phụ, thời gian trung bình để hoàn thành một nhiệm vụ của con người lên tới vài giờ hoặc vài tuần. Trong đánh giá dòng lệnh, tỷ lệ thành công của các trí tuệ nhân tạo xuất sắc nhất cũng chỉ đạt 25.2%. Nhóm đánh giá nhận định, thời đại của trí tuệ nhân tạo dễ sử dụng đã đến, nhưng còn rất xa mới có thể thay thế con người trong công việc thực tế. (Nguồn: MLion)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
MyGateTradeStory
133,76K Phổ biến
#
TradFiCFDGoldMaster
1,99M Phổ biến
#
IsraelStrikesIranBTCPlunges
57,38K Phổ biến
#
PredictWorldCup🇺🇸vs🇵🇾
765,22K Phổ biến
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,72M Phổ biến

Đã ghim

sơ đồ trang web

Kỳ thi tuyển dụng Agent: Nhiệm vụ khó nhất trong Fable 5 vẫn để trắng, chi phí cho một câu hỏi cao gấp 4 đến 12 lần

Chủ đề thịnh hành

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Đã ghim