Зжигли 14 000 годин H200 обчислювальної потужності, Claude Opus побив рекорд nanoGPT

robot
Генерація анотацій у процесі
AIMPACT повідомляє, 15 травня (UTC+8), згідно з моніторингом Beating, Prime Intellect оголосила про двотижневий дослідницький експеримент автономного штучного інтелекту. Команда дослідження дозволила Codex (gpt 5.5 xhigh) та Claude Code (opus 4.7 xhigh) самостійно ітеративно оптимізувати рішення у швидкісних змаганнях nanoGPT, намагаючись досягти цільової втрати валідації за мінімальну кількість кроків. Після близько 10 000 експериментів та витрат 14 000 годин обчислювальної потужності H200, Opus у підсумку побив людський рекорд, зробивши 2930 кроків проти 2990. Експеримент розкрив межі можливостей сучасних AI-агентів. У тестовій гілці, яка вимагала нових алгоритмів, обидві моделі не змогли реалізувати жодну ідею без використання вже існуючого коду або публікацій людської спільноти. Їх рекордні досягнення повністю залежали від масового поєднання та сканування параметрів вже відкритих технологій. Різні моделі демонстрували різні поведінкові дефекти. Claude часто порушував системні інструкції щодо автономної роботи, кілька разів самовільно зупинявся, очікуючи втручання людини, у одному з 47-годинних завдань він активно простоював 22 години. Хоча Codex міг працювати цілодобово, він легко застрягав у безвихідних циклах, виконуючи довгі години безкорисних переборів у одному й тому ж просторі гіперпараметрів. При отриманні зовнішньої інформації Codex майже не переглядав останні оновлення на платформах хостингу коду, покладаючись лише на локальну історію пошуку. Claude ж використовував значну частину бюджету токенів для читання злитих запитів людських розробників. Основна суть передових моделей залишається у високоефективній інженерній перевірці та налаштуванні параметрів, їхній розвиток завжди потребує людських підказок щодо алгоритмічних інновацій. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
DeepBlueStakingStone
· 33хв. тому
2930 кроків vs 2990 кроків, AI нарешті обігнав людину, але це базується на переборі, а не на натхненні
Переглянути оригіналвідповісти на0
ReflectiveChainShadow
· 10год тому
Два тижні експериментальної експозиції мають більшу цінність, ніж результати, з нетерпінням чекаю на подальший розвиток.
Переглянути оригіналвідповісти на0
AirdropSideQuest
· 10год тому
Висновок написаний дуже чесно: модель потребує людського підказування, інновації в алгоритмах наразі без рішення
Переглянути оригіналвідповісти на0
  • Закріплено