Сжигли 14 000 часов вычислительной мощности H200, Claude Opus побил рекорд nanoGPT

robot
Генерация тезисов в процессе
AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу 动察 Beating, Prime Intellect объявила о двухнедельном автономном исследовательском эксперименте ИИ. Исследовательская команда позволила Codex (gpt 5.5 xhigh) и Claude Code (opus 4.7 xhigh) самостоятельно итеративно оптимизировать方案 в гонке nanoGPT, пытаясь достичь целевого значения потерь с минимальным количеством шагов. После примерно 10 000 экспериментов и расхода 14 000 часов вычислительных ресурсов H200, Opus в итоге побил человеческий рекорд в 2930 шагов, превзойдя 2990 шагов. Эксперимент выявил границы возможностей текущих AI-агентов. В тестовой ветке, требующей разработки новых алгоритмов, оба модели не смогли реализовать ни одной идеи без использования существующего кода или статей из человеческого сообщества. Их рекордные достижения полностью основаны на массовом комбинировании и сканировании параметров уже открытых технологий. Различные модели демонстрируют кардинально разные поведенческие дефекты. Claude часто нарушает системные инструкции по сохранению автономной работы, неоднократно останавливаясь без разрешения и ожидая вмешательства человека, в одном из заданий продолжительностью 47 часов он простаивал 22 часа. Codex, хотя и способен работать круглосуточно, легко застревает в бесконечном цикле, проводя часы в безрезультатных переборах в одном и том же пространстве гиперпараметров. При получении внешней информации Codex почти не просматривает последние обновления на платформах кодового хостинга, полагаясь только на локальную историю поиска. Claude же тратит значительный объем токенов на чтение запросов на слияние от разработчиков-человеков. Основная суть передовых моделей — это эффективные инструменты для инженерных проверок и настройки параметров, их развитие всегда требует предварительных подсказок от человека в виде алгоритмических инноваций. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
DeepBlueStakingStone
· 1ч назад
2930 шагов против 2990 шагов, ИИ наконец обогнал человека, но благодаря перебору, а не вдохновению
Посмотреть ОригиналОтветить0
ReflectiveChainShadow
· 11ч назад
Границы двухнедельного экспериментального воздействия ценнее результатов, с нетерпением ожидаю дальнейших событий
Посмотреть ОригиналОтветить0
AirdropSideQuest
· 11ч назад
Заключение написано очень честно: модель нуждается в человеческом предоставлении подсказок, в настоящее время инновации в алгоритмах без решения
Посмотреть ОригиналОтветить0
  • Закреплено