METR met à jour la référence de capacité des agents IA, Gemini 3.1Pro dépasse la fiabilité de tous les modèles de pointe et atteint le sommet

robot
Création du résumé en cours

ME News消息,4月16日(UTC+8),据动察Beating监测,AI安全评估机构METR更新「时间地平线」(Time Horizon)基准,新增谷歌Gemini 3.1 Pro的测试数据。该基准追踪前沿AI代理独立完成编程任务的能力上限,自今年2月上线以来已成为衡量AI代理能力增长的重要参考。测量方式是让人类软件工程专家(平均约5年经验)和AI代理完成同一组超过一百项软件任务,用人类耗时衡量任务难度。核心指标有两个:50%时间地平线(AI有一半概率完成的最高任务难度)和80%时间地平线(AI有八成概率完成的最高任务难度)。Gemini 3.1 Pro在两个指标上的排名出现反转。50%时间地平线排第二,仅次于大幅领先的Claude Opus 4.6: 1. Claude Opus 4.6:约12.0小时 2. Gemini 3.1 Pro:约6.4小时 3. GPT-5.2:约5.9小时 4. GPT-5.4:约5.7小时 但在更严格的80%时间地平线上,Gemini 3.1 Pro反超登顶: 1. Gemini 3.1 Pro:约1.5小时 2. Claude Opus 4.6:约1.2小时 3. GPT-5.2:约1.1小时 Claude Opus 4.6能挑战更难的任务但成功率波动大,Gemini 3.1 Pro天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景,后者可能更实用。相比上一代Gemini 3 Pro(50%时间地平线约3.7小时),Gemini 3.1 Pro提升约71%。从更长的时间线看,METR的数据表明前沿模型的时间地平线从2019年GPT-2的几秒钟增长到如今的十余小时,约每4.3个月翻一番,METR称「没有看到指数增长放缓的迹象」。需注意,METR的任务覆盖软件工程、机器学习和网络安全,且均为定义清晰、可自动评分的独立任务。METR在后续研究中发现,当评分方式从算法判定改为人类整体评判时,AI表现显著下降。12小时的时间地平线不等于AI能替代人类半天的实际工作。 (来源:BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé