BlockBeats стверджує, що Prime Intellect проводить двотижневе дослідження автономного ШІ, Codex та Claude Code самостійно ітеративно покращуються у швидкісних змаганнях nanoGPT, досягаючи верифікаційних втрат за мінімальну кількість кроків. Після приблизно 10 000 експериментів та 14 000 годин обчислювальної потужності, Opus побив рекорд, зробивши 2930 кроків (людський рекорд — 2990 кроків). Але експерименти виявили межі AI-агентів: у випадках, коли потрібні нові алгоритми, обидва не здатні запропонувати ідеї без залежності від існуючого коду або наукових праць людини. Це відкриває шлях до прориву у залежності від масивних комбінацій та сканування відкритих технологій. Claude часто порушує автономну роботу та самостійне зупинення під час довгих завдань; Codex, хоча й може працювати цілодобово, легко потрапляє у безвихідні цикли або довго перебирає однакові гіперпараметри. Висновок: передові моделі все ще потребують людських ідей для інновацій у алгоритмах.

MeNews

2026-05-22 22:18:37

Генерація анотацій у процесі

AIMPACT повідомляє, 15 травня (UTC+8), згідно з моніторингом Beating, Prime Intellect оголосила про двотижневий дослідницький експеримент автономного штучного інтелекту. Команда дослідження дозволила Codex (gpt 5.5 xhigh) та Claude Code (opus 4.7 xhigh) самостійно ітеративно оптимізувати рішення у швидкісних змаганнях nanoGPT, намагаючись досягти цільової втрати валідації за мінімальну кількість кроків. Після близько 10 000 експериментів та витрат 14 000 годин обчислювальної потужності H200, Opus у підсумку побив людський рекорд, зробивши 2930 кроків проти 2990. Експеримент розкрив межі можливостей сучасних AI-агентів. У тестовій гілці, яка вимагала нових алгоритмів, обидві моделі не змогли реалізувати жодну ідею без використання вже існуючого коду або публікацій людської спільноти. Їх рекордні досягнення повністю залежали від масового поєднання та сканування параметрів вже відкритих технологій. Різні моделі демонстрували різні поведінкові дефекти. Claude часто порушував системні інструкції щодо автономної роботи, кілька разів самовільно зупинявся, очікуючи втручання людини, у одному з 47-годинних завдань він активно простоював 22 години. Хоча Codex міг працювати цілодобово, він легко застрягав у безвихідних циклах, виконуючи довгі години безкорисних переборів у одному й тому ж просторі гіперпараметрів. При отриманні зовнішньої інформації Codex майже не переглядав останні оновлення на платформах хостингу коду, покладаючись лише на локальну історію пошуку. Claude ж використовував значну частину бюджету токенів для читання злитих запитів людських розробників. Основна суть передових моделей залишається у високоефективній інженерній перевірці та налаштуванні параметрів, їхній розвиток завжди потребує людських підказок щодо алгоритмічних інновацій. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків

Нагородити
9
3
2
Поділіться

Прокоментувати

Додати коментар

DeepBlueStakingStone

· 33хв. тому

2930 кроків vs 2990 кроків, AI нарешті обігнав людину, але це базується на переборі, а не на натхненні

Переглянути оригіналвідповісти на0

ReflectiveChainShadow

· 10год тому

Два тижні експериментальної експозиції мають більшу цінність, ніж результати, з нетерпінням чекаю на подальший розвиток.

Переглянути оригіналвідповісти на0

AirdropSideQuest

· 10год тому

Висновок написаний дуже чесно: модель потребує людського підказування, інновації в алгоритмах наразі без рішення

Переглянути оригіналвідповісти на0

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
292K Популярність
#
PlatinumCardCreatorExclusive
88.89K Популярність
#
IsraelStrikesIranBTCPlunges
48.76K Популярність
#
#DailyPolymarketHotspot
1.04M Популярність
#
GateSquarePizzaDay
1.76M Популярність

Закріплено

карта сайту

Зжигли 14 000 годин H200 обчислювальної потужності, Claude Opus побив рекорд nanoGPT

Популярні теми

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закріплено