METR обновил базовые показатели возможностей AI-агентов, Gemini 3.1Pro превосходит все передовые модели по надежности и занимает вершину

robot
Генерация тезисов в процессе

ME News Новости, 16 апреля (UTC+8), по данным мониторинга 动察 Beating, агентство по оценке безопасности ИИ METR обновило базовый показатель «Временная горизонталь» (Time Horizon), добавив тестовые данные Gemini 3.1 Pro от Google. Этот базовый показатель отслеживает предел возможностей передовых ИИ-агентов самостоятельно выполнять программные задачи; с момента запуска в феврале этого года он стал важным ориентиром для оценки роста возможностей ИИ-агентов. Метод измерения заключается в том, что эксперты по программному обеспечению (в среднем с опытом около 5 лет) и ИИ-агенты выполняют одну и ту же группу из более чем ста программных задач, а время, затраченное человеком, служит мерой сложности задачи. Основными показателями являются два: 50% временной горизонталь (максимальная сложность задачи, которую ИИ с вероятностью 50% сможет выполнить) и 80% временной горизонталь (максимальная сложность задачи, которую ИИ с вероятностью 80% сможет выполнить). В рейтинге Gemini 3.1 Pro произошли изменения по этим двум показателям. На 50% временной горизонтали он занимает второе место, уступая значительно лидирующему Claude Opus 4.6: 1. Claude Opus 4.6: около 12.0 часов 2. Gemini 3.1 Pro: около 6.4 часов 3. GPT-5.2: около 5.9 часов 4. GPT-5.4: около 5.7 часов Однако на более строгой 80% временной горизонтали Gemini 3.1 Pro вышел на первое место: 1. Gemini 3.1 Pro: около 1.5 часов 2. Claude Opus 4.6: около 1.2 часов 3. GPT-5.2: около 1.1 часов Claude Opus 4.6 способен выполнять более сложные задачи, но его успехи колеблются, тогда как Gemini 3.1 Pro имеет более низкий потолок, но более стабильную работу в пределах своих возможностей. Для производственных сценариев, требующих предсказуемых результатов, последний вариант может быть более практичным. По сравнению с предыдущим поколением Gemini 3 Pro (50% временной горизонталь около 3.7 часов), Gemini 3.1 Pro улучшился примерно на 71%. На более длительных временных линиях данные METR показывают, что временная горизонталь передовых моделей с 2019 года, начиная с GPT-2, выросла с нескольких секунд до более десяти часов, увеличиваясь примерно в 4.3 раза каждые 4.3 месяца, и METR отмечает, что «нет признаков замедления экспоненциального роста». Следует отметить, что задачи METR охватывают программную инженерию, машинное обучение и кибербезопасность, и все они являются четко определенными, автоматически оцениваемыми независимыми задачами. В последующих исследованиях METR обнаружил, что при смене метода оценки с автоматической алгоритмической оценки на общую человеческую оценку производительность ИИ значительно снижается. Время в 12 часов на временной горизонталь не означает, что ИИ может заменить человека на полдня реальной работы. (Источник: BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено