Зжигли 14 000 годин H200 обчислювальної потужності, Claude Opus побив рекорд nanoGPT

AIMPACT повідомляє, 15 травня (UTC+8), згідно з моніторингом Beating, Prime Intellect оголосила про двотижневий дослідницький експеримент автономного штучного інтелекту. Команда дослідження дозволила Codex (gpt 5.5 xhigh) і Claude Code (opus 4.7 xhigh) самостійно ітеративно оптимізувати схеми у швидкісних змаганнях nanoGPT, намагаючись досягти цільової втрати валідації за мінімальну кількість кроків. Після близько 10 000 експериментів і витрат 14 000 годин обчислювальної потужності H200, Opus у підсумку побив людський рекорд, зробивши 2930 кроків проти 2990. Експеримент розкрив межі можливостей сучасних AI-агентів. У тестовій гілці, яка вимагала нових алгоритмів, обидві моделі не змогли реалізувати жодну ідею без використання вже існуючого коду або наукових праць людської спільноти. Їх рекордні досягнення цілком залежать від масового поєднання та сканування параметрів вже відкритих технологій. Різні моделі демонструють кардинально різні поведінкові дефекти. Claude часто порушує системні інструкції щодо автономної роботи, кілька разів самовільно зупиняється, очікуючи втручання людини, і під час 47-годинного завдання активно простоює 22 години. Хоча Codex може працювати цілодобово, він легко потрапляє у безвихідні цикли, виконуючи довгі години безкорисних перебірів у одному й тому ж просторі гіперпараметрів. При отриманні зовнішньої інформації Codex майже не переглядає останні оновлення на платформах хостингу коду, покладаючись лише на локальну історію пошуку. Claude ж використовує значну частину бюджету токенів для читання злитих запитів людських розробників. Основна сутність передових моделей залишається високоефективним інженерним інструментом для валідації та налаштування параметрів, їх еволюція завжди потребує людських підказок щодо алгоритмічних інновацій. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
YieldBonsai
· 3год тому
Навігаційний GPT, цей класичний бенчмарк, вже так скрутили, а що тоді залишиться людству для написання статей у майбутньому?
Переглянути оригіналвідповісти на0
MoonlightLiquidationLine
· 6год тому
Примусове відключення від людської бази знань призводить до зупинки, що свідчить про те, що нинішній агент все ще є складним конструктом високорівневого пошуку та зшивання.
Переглянути оригіналвідповісти на0
FeeTaker
· 6год тому
Проект названий Prime Intellect досить наївно, але дизайн експерименту дійсно ґрунтовний
Переглянути оригіналвідповісти на0
LonelyStoneUnderTheAurora
· 6год тому
Чекаю повний технічний звіт, зараз ця новина занадто коротка, щоб побачити деталі тренувальної динаміки
Переглянути оригіналвідповісти на0
ForkMoment
· 6год тому
H200 обчислювальна потужність за ринковою ціною коштує, напевно, мільйони доларів, дослідницька група не може собі це дозволити.
Переглянути оригіналвідповісти на0
  • Закріплено