AIMPACT повідомляє, 15 травня (UTC+8), згідно з моніторингом Beating, Prime Intellect оголосила про двотижневий дослідницький експеримент автономного штучного інтелекту. Команда дослідження дозволила Codex (gpt 5.5 xhigh) і Claude Code (opus 4.7 xhigh) самостійно ітеративно оптимізувати схеми у швидкісних змаганнях nanoGPT, намагаючись досягти цільової втрати валідації за мінімальну кількість кроків. Після близько 10 000 експериментів і витрат 14 000 годин обчислювальної потужності H200, Opus у підсумку побив людський рекорд, зробивши 2930 кроків проти 2990. Експеримент розкрив межі можливостей сучасних AI-агентів. У тестовій гілці, яка вимагала нових алгоритмів, обидві моделі не змогли реалізувати жодну ідею без використання вже існуючого коду або наукових праць людської спільноти. Їх рекордні досягнення цілком залежать від масового поєднання та сканування параметрів вже відкритих технологій. Різні моделі демонструють кардинально різні поведінкові дефекти. Claude часто порушує системні інструкції щодо автономної роботи, кілька разів самовільно зупиняється, очікуючи втручання людини, і під час 47-годинного завдання активно простоює 22 години. Хоча Codex може працювати цілодобово, він легко потрапляє у безвихідні цикли, виконуючи довгі години безкорисних перебірів у одному й тому ж просторі гіперпараметрів. При отриманні зовнішньої інформації Codex майже не переглядає останні оновлення на платформах хостингу коду, покладаючись лише на локальну історію пошуку. Claude ж використовує значну частину бюджету токенів для читання злитих запитів людських розробників. Основна сутність передових моделей залишається високоефективним інженерним інструментом для валідації та налаштування параметрів, їх еволюція завжди потребує людських підказок щодо алгоритмічних інновацій. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

6 лайків

Нагородити
6
5
Репост
Поділіться

Прокоментувати

Додати коментар

YieldBonsai

· 3год тому

Навігаційний GPT, цей класичний бенчмарк, вже так скрутили, а що тоді залишиться людству для написання статей у майбутньому?