L'organisme d'évaluation de la sécurité de l'IA METR a mis à jour la référence « horizon temporel », en ajoutant les données de test de Google Gemini 3.1 Pro. Cette référence mesure la capacité des agents IA à accomplir des tâches de programmation, Gemini 3.1 Pro étant le meilleur à 80 % de l'horizon temporel, mais se classant deuxième à 50 % de l'horizon temporel. Par rapport à la génération précédente, Gemini 3.1 Pro a connu une amélioration significative, mais il existe encore des limites en ce qui concerne le remplacement dans le travail réel.

MeNews

2026-05-14 15:40:03

Création du résumé en cours

ME News消息，4月16日（UTC+8），据动察Beating监测，AI安全评估机构METR更新「时间地平线」（Time Horizon）基准，新增谷歌Gemini 3.1 Pro的测试数据。该基准追踪前沿AI代理独立完成编程任务的能力上限，自今年2月上线以来已成为衡量AI代理能力增长的重要参考。测量方式是让人类软件工程专家（平均约5年经验）和AI代理完成同一组超过一百项软件任务，用人类耗时衡量任务难度。核心指标有两个：50%时间地平线（AI有一半概率完成的最高任务难度）和80%时间地平线（AI有八成概率完成的最高任务难度）。Gemini 3.1 Pro在两个指标上的排名出现反转。50%时间地平线排第二，仅次于大幅领先的Claude Opus 4.6： 1. Claude Opus 4.6：约12.0小时 2. Gemini 3.1 Pro：约6.4小时 3. GPT-5.2：约5.9小时 4. GPT-5.4：约5.7小时但在更严格的80%时间地平线上，Gemini 3.1 Pro反超登顶： 1. Gemini 3.1 Pro：约1.5小时 2. Claude Opus 4.6：约1.2小时 3. GPT-5.2：约1.1小时 Claude Opus 4.6能挑战更难的任务但成功率波动大，Gemini 3.1 Pro天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景，后者可能更实用。相比上一代Gemini 3 Pro（50%时间地平线约3.7小时），Gemini 3.1 Pro提升约71%。从更长的时间线看，METR的数据表明前沿模型的时间地平线从2019年GPT-2的几秒钟增长到如今的十余小时，约每4.3个月翻一番，METR称「没有看到指数增长放缓的迹象」。需注意，METR的任务覆盖软件工程、机器学习和网络安全，且均为定义清晰、可自动评分的独立任务。METR在后续研究中发现，当评分方式从算法判定改为人类整体评判时，AI表现显著下降。12小时的时间地平线不等于AI能替代人类半天的实际工作。（来源：BlockBeats）

ME2,66%

4-3,34%

GOOGLX-0,77%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.67M Popularité
#
IsraelStrikesIranBTCPlunges
46.68K Popularité
#
#DailyPolymarketHotspot
937.15K Popularité
#
JaneStreetReducesBitcoinETFHoldings
105.17K Popularité
#
TrumpVisitsChina
63.39K Popularité

Épinglé

METR met à jour la référence de capacité des agents IA, Gemini 3.1Pro dépasse la fiabilité de tous les modèles de pointe et atteint le sommet

Sujets populaires

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Épinglé