AI безпекова оцінювальна організація METR оновила орієнтир «часової горизонтальності», додавши тестові дані Google Gemini 3.1 Pro. Цей орієнтир оцінює здатність AI-агента виконувати програмувальні завдання, Gemini 3.1 Pro показує найкращі результати на 80% часової горизонтальності, але посідає друге місце на 50% часової горизонтальності. У порівнянні з попереднім поколінням, Gemini 3.1 Pro має значне покращення, але все ще має обмеження щодо заміни у реальній роботі.

MeNews

2026-05-14 15:40:03

Генерація анотацій у процесі

ME News Новини, 16 квітня (UTC+8), згідно з моніторингом Дангча Beating, організація з оцінки безпеки ШІ METR оновила орієнтир «Часова горизонталь» (Time Horizon), додавши тестові дані Gemini 3.1 Pro від Google. Цей орієнтир відстежує межу здатності передових агентів ШІ самостійно виконувати програмувальні завдання, і з моменту запуску у лютому цього року став важливим орієнтиром для оцінки зростання можливостей агентів ШІ. Метод вимірювання полягає у тому, що експерт з програмування (з середнім досвідом близько 5 років) та агент ШІ виконують однаковий набір з понад сотні програмних завдань, а час, витрачений людиною, використовується для оцінки складності завдання. Основні показники — це дві часові межі: 50% часова межа (максимальна складність завдання, яку ШІ має 50% шансів виконати) та 80% часова межа (максимальна складність завдання, яку ШІ має 80% шансів виконати). Gemini 3.1 Pro показала зміну місць у двох показниках. У 50% часовій межі вона посідає друге місце, поступаючись значно випереджаючому Claude Opus 4.6: 1. Claude Opus 4.6: приблизно 12.0 годин 2. Gemini 3.1 Pro: приблизно 6.4 години 3. GPT-5.2: приблизно 5.9 годин 4. GPT-5.4: приблизно 5.7 годин Але у більш суворій 80% часовій межі Gemini 3.1 Pro обійшла всіх і посіла перше місце: 1. Gemini 3.1 Pro: приблизно 1.5 години 2. Claude Opus 4.6: приблизно 1.2 години 3. GPT-5.2: приблизно 1.1 години Claude Opus 4.6 здатен кидати виклик складнішим завданням, але його успіхи коливаються, тоді як Gemini 3.1 Pro має нижчу межу «потолку», але більш стабільна у межах своїх можливостей. Для виробничих сценаріїв, що потребують передбачуваних результатів, останній варіант може бути більш корисним. У порівнянні з попереднім поколінням Gemini 3 Pro (50% часова межа близько 3.7 години), Gemini 3.1 Pro покращилася приблизно на 71%. З довгострокової перспективи дані METR показують, що часова межа передових моделей зросла з кількох секунд у GPT-2 у 2019 році до понад десяти годин сьогодні, з приблизним подвоєнням кожні 4.3 місяці, і METR стверджує, що «немає ознак уповільнення експоненційного зростання». Варто зазначити, що задачі METR охоплюють програмну інженерію, машинне навчання та кібербезпеку, і всі вони мають чітко визначені та автоматично оцінювані незалежні завдання. У подальших дослідженнях METR виявила, що при зміні методу оцінки з автоматичного алгоритмічного визначення на загальну людську оцінку, продуктивність ШІ значно знижується. 12-годинна часова межа не означає, що ШІ може замінити людину на півдня реальної роботи. (Джерело: BlockBeats)

ME2,66%

4-3,34%

GOOGLX-0,77%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.67M Популярність
#
IsraelStrikesIranBTCPlunges
46.68K Популярність
#
#DailyPolymarketHotspot
937.15K Популярність
#
JaneStreetReducesBitcoinETFHoldings
105.17K Популярність
#
TrumpVisitsChina
63.39K Популярність

Закріплено

карта сайту

METR оновлює базовий рівень можливостей AI-агентів, Gemini 3.1Pro перевершує всі передові моделі за надійністю і займає перше місце

Популярні теми

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Закріплено