METR оновлює базовий рівень можливостей AI-агентів, Gemini 3.1Pro перевершує всі передові моделі за надійністю і займає перше місце

robot
Генерація анотацій у процесі

ME News Новини, 16 квітня (UTC+8), згідно з моніторингом Дангча Beating, організація з оцінки безпеки ШІ METR оновила орієнтир «Часова горизонталь» (Time Horizon), додавши тестові дані Gemini 3.1 Pro від Google. Цей орієнтир відстежує межу здатності передових агентів ШІ самостійно виконувати програмувальні завдання, і з моменту запуску у лютому цього року став важливим орієнтиром для оцінки зростання можливостей агентів ШІ. Метод вимірювання полягає у тому, що експерт з програмування (з середнім досвідом близько 5 років) та агент ШІ виконують однаковий набір з понад сотні програмних завдань, а час, витрачений людиною, використовується для оцінки складності завдання. Основні показники — це дві часові межі: 50% часова межа (максимальна складність завдання, яку ШІ має 50% шансів виконати) та 80% часова межа (максимальна складність завдання, яку ШІ має 80% шансів виконати). Gemini 3.1 Pro показала зміну місць у двох показниках. У 50% часовій межі вона посідає друге місце, поступаючись значно випереджаючому Claude Opus 4.6: 1. Claude Opus 4.6: приблизно 12.0 годин 2. Gemini 3.1 Pro: приблизно 6.4 години 3. GPT-5.2: приблизно 5.9 годин 4. GPT-5.4: приблизно 5.7 годин Але у більш суворій 80% часовій межі Gemini 3.1 Pro обійшла всіх і посіла перше місце: 1. Gemini 3.1 Pro: приблизно 1.5 години 2. Claude Opus 4.6: приблизно 1.2 години 3. GPT-5.2: приблизно 1.1 години Claude Opus 4.6 здатен кидати виклик складнішим завданням, але його успіхи коливаються, тоді як Gemini 3.1 Pro має нижчу межу «потолку», але більш стабільна у межах своїх можливостей. Для виробничих сценаріїв, що потребують передбачуваних результатів, останній варіант може бути більш корисним. У порівнянні з попереднім поколінням Gemini 3 Pro (50% часова межа близько 3.7 години), Gemini 3.1 Pro покращилася приблизно на 71%. З довгострокової перспективи дані METR показують, що часова межа передових моделей зросла з кількох секунд у GPT-2 у 2019 році до понад десяти годин сьогодні, з приблизним подвоєнням кожні 4.3 місяці, і METR стверджує, що «немає ознак уповільнення експоненційного зростання». Варто зазначити, що задачі METR охоплюють програмну інженерію, машинне навчання та кібербезпеку, і всі вони мають чітко визначені та автоматично оцінювані незалежні завдання. У подальших дослідженнях METR виявила, що при зміні методу оцінки з автоматичного алгоритмічного визначення на загальну людську оцінку, продуктивність ШІ значно знижується. 12-годинна часова межа не означає, що ШІ може замінити людину на півдня реальної роботи. (Джерело: BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено