METR cập nhật tiêu chuẩn năng lực đại lý AI, Gemini 3.1Pro độ tin cậy vượt xa tất cả các mô hình tiên tiến để đứng đầu

robot
Đang tạo bản tóm tắt

ME News Tin tức, ngày 16 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, tổ chức đánh giá an toàn AI METR đã cập nhật tiêu chuẩn “Chân trời thời gian” (Time Horizon), thêm dữ liệu thử nghiệm của Google Gemini 3.1 Pro. Tiêu chuẩn này theo dõi giới hạn khả năng của các đại lý AI hàng đầu hoàn thành các nhiệm vụ lập trình độc lập, kể từ khi ra mắt vào tháng 2 năm nay đã trở thành tham khảo quan trọng để đo lường sự phát triển năng lực của các đại lý AI. Phương pháp đo lường là để các chuyên gia kỹ thuật phần mềm (trung bình có 5 năm kinh nghiệm) và đại lý AI hoàn thành cùng một nhóm hơn một trăm nhiệm vụ phần mềm, sử dụng thời gian của con người để đánh giá độ khó của nhiệm vụ. Hai chỉ số cốt lõi là: 50% Chân trời thời gian (khả năng của AI hoàn thành nhiệm vụ khó nhất trong đó có xác suất 50%) và 80% Chân trời thời gian (khả năng của AI hoàn thành nhiệm vụ khó nhất trong đó có xác suất 80%). Gemini 3.1 Pro đã xuất hiện sự đảo ngược trong thứ hạng của hai chỉ số này. Chân trời thời gian 50% xếp thứ hai, chỉ sau Claude Opus 4.6 vượt trội rõ rệt: 1. Claude Opus 4.6: khoảng 12.0 giờ 2. Gemini 3.1 Pro: khoảng 6.4 giờ 3. GPT-5.2: khoảng 5.9 giờ 4. GPT-5.4: khoảng 5.7 giờ Nhưng trên chân trời thời gian 80% nghiêm ngặt hơn, Gemini 3.1 Pro vượt lên dẫn đầu: 1. Gemini 3.1 Pro: khoảng 1.5 giờ 2. Claude Opus 4.6: khoảng 1.2 giờ 3. GPT-5.2: khoảng 1.1 giờ Claude Opus 4.6 có thể thử thách các nhiệm vụ khó hơn nhưng tỷ lệ thành công dao động lớn, trong khi Gemini 3.1 Pro có giới hạn thấp hơn nhưng ổn định hơn trong khả năng. Trong các tình huống sản xuất cần kết quả dự đoán được, phương án sau có thể hữu ích hơn. So với thế hệ trước Gemini 3 Pro (50% Chân trời thời gian khoảng 3.7 giờ), Gemini 3.1 Pro đã nâng cao khoảng 71%. Nhìn từ thời gian dài hơn, dữ liệu của METR cho thấy chân trời thời gian của các mô hình hàng đầu đã tăng từ vài giây của GPT-2 năm 2019 lên hơn mười giờ ngày nay, cứ mỗi 4,3 tháng lại tăng gấp đôi, METR gọi đó là “không có dấu hiệu chậm lại của tăng trưởng theo cấp số nhân”. Cần lưu ý, các nhiệm vụ của METR bao gồm kỹ thuật phần mềm, học máy và an ninh mạng, đều là các nhiệm vụ độc lập rõ ràng, có thể tự động chấm điểm. Trong các nghiên cứu sau này, METR phát hiện rằng khi phương pháp chấm điểm chuyển từ đánh giá của thuật toán sang đánh giá tổng thể của con người, hiệu suất của AI giảm rõ rệt. Chân trời thời gian 12 giờ không đồng nghĩa AI có thể thay thế con người trong nửa ngày công việc thực tế. (Nguồn: BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim