BlockBeats утверждает, что Prime Intellect проводит двухнедельное самостоятельное исследование ИИ, Codex и Claude Code в скорости nanoGPT самостоятельно итеративно достигают минимальной проверочной потери за минимальное число шагов. После примерно 10 000 экспериментов и 14 000 часов вычислительных ресурсов Opus установил рекорд, сделав это за 2930 шагов (человеческий рекорд — 2990 шагов). Но эксперименты выявили границы AI-агентов: в ветках, требующих новых алгоритмов, оба не могут предложить идеи без опоры на существующий код или статьи человека. Это достигается за счет преодоления зависимости от огромных комбинаций и сканирования открытых технологий. Claude часто нарушает автономную работу и самостановку при длительных задачах; Codex, хотя и способен работать круглосуточно, легко застревает в бесконечных циклах и долго перебирает гиперпараметры в одном и том же пространстве. Вывод: передовые модели все еще требуют человеческого вклада в предоставление идей для алгоритмических инноваций.

MeNews

2026-05-22 22:18:37

Генерация тезисов в процессе

AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу 动察 Beating, Prime Intellect объявила о двухнедельном автономном исследовательском эксперименте ИИ. Исследовательская команда позволила Codex (gpt 5.5 xhigh) и Claude Code (opus 4.7 xhigh) самостоятельно итеративно оптимизировать方案 в гонке nanoGPT, пытаясь достичь целевого значения потерь с минимальным количеством шагов. После примерно 10 000 экспериментов и расхода 14 000 часов вычислительных ресурсов H200, Opus в итоге побил человеческий рекорд в 2930 шагов, превзойдя 2990 шагов. Эксперимент выявил границы возможностей текущих AI-агентов. В тестовой ветке, требующей разработки новых алгоритмов, оба модели не смогли реализовать ни одной идеи без использования существующего кода или статей из человеческого сообщества. Их рекордные достижения полностью основаны на массовом комбинировании и сканировании параметров уже открытых технологий. Различные модели демонстрируют кардинально разные поведенческие дефекты. Claude часто нарушает системные инструкции по сохранению автономной работы, неоднократно останавливаясь без разрешения и ожидая вмешательства человека, в одном из заданий продолжительностью 47 часов он простаивал 22 часа. Codex, хотя и способен работать круглосуточно, легко застревает в бесконечном цикле, проводя часы в безрезультатных переборах в одном и том же пространстве гиперпараметров. При получении внешней информации Codex почти не просматривает последние обновления на платформах кодового хостинга, полагаясь только на локальную историю поиска. Claude же тратит значительный объем токенов на чтение запросов на слияние от разработчиков-человеков. Основная суть передовых моделей — это эффективные инструменты для инженерных проверок и настройки параметров, их развитие всегда требует предварительных подсказок от человека в виде алгоритмических инноваций. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков

Награда
9
3
2
Поделиться

комментарий

Добавить комментарий

DeepBlueStakingStone

· 1ч назад

2930 шагов против 2990 шагов, ИИ наконец обогнал человека, но благодаря перебору, а не вдохновению

Посмотреть ОригиналОтветить0

ReflectiveChainShadow

· 11ч назад

Границы двухнедельного экспериментального воздействия ценнее результатов, с нетерпением ожидаю дальнейших событий

Посмотреть ОригиналОтветить0

AirdropSideQuest

· 11ч назад

Заключение написано очень честно: модель нуждается в человеческом предоставлении подсказок, в настоящее время инновации в алгоритмах без решения

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
294.17K Популярность
#
PlatinumCardCreatorExclusive
89.71K Популярность
#
IsraelStrikesIranBTCPlunges
48.79K Популярность
#
#DailyPolymarketHotspot
1.04M Популярность
#
GateSquarePizzaDay
1.76M Популярность

Закреплено

Карта сайта

Сжигли 14 000 часов вычислительной мощности H200, Claude Opus побил рекорд nanoGPT

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено