Anthropic 警告人工智能自我完善的风险 - ForkLog:加密货币、人工智能、奇点、未来

ии-стартап Anthropic AI# Anthropic предупреждает о рисках самосовершенствования ИИ

Члены команды Anthropic все чаще передают ИИ-системам большую часть разработки новых моделей. В компании увидели в этом признаки приближения к рекурсивному самосовершенствованию.

Согласно внутренним данным, более 80% кода актуальных продуктов фирмы написал Claude. При этом во втором квартале объем кода на одного инженера вырос в восемь раз по сравнению с 2024 годом.

Источник: Институт Anthropic. Глава Института Anthropic Марина Фаваро и сооснователь компании Джек Кларк написали, что при достаточном объеме вычислений тренд может привести к системе, способной «полностью автономно проектировать и разрабатывать своего преемника».

«Мы еще не достигли точки невозврата, и рекурсивное самосовершенствование не является неизбежным. Но оно может наступить раньше, чем к этому будут готовы большинство институтов», — подчеркнули эксперты.

Бенчмарки и метрики

В апреле Claude выполнил более 800 исправлений — по оценке курировавшего инженера, у человека на это ушло бы четыре года.

На открытых задачах доля успешных сессий Claude выросла до 76% в мае 2026 года — плюс 50 процентных пунктов за шесть месяцев.

Источник: Институт Anthropic. В Anthropic заявили, что длительность задач, которые ИИ способен надежно выполнять самостоятельно, удваивается примерно каждые четыре месяца (против прежних семи).

В задаче на ускорение обучения небольшой ИИ-модели Claude Opus 4 в мае 2025 года в среднем давал прирост скорости примерно в три раза, а Mythos Preview в апреле 2026 — примерно в 52 раза.

Источник: Институт Anthropic. В ходе внутренних тестов модель Mythos Preview продемонстрировала способность решать исследовательские задачи в области ИИ-безопасности. За 800 часов работы группа агентов закрыла 97% проблемного разрыва в эксперименте, в то время как двое исследователей-людей за неделю справились лишь с 23% объема.

Новые узкие места

Несмотря на успехи в написании кода, за людьми сохраняется преимущество в «исследовательском суждении» и определении стратегических целей.

В Anthropic полагают, что в ближайшем будущем роль разработчиков сместится от написания строк кода к глубокому ревью результатов работы нейросети. Именно человеческая проверка может стать главным тормозом в скорости разработки новых моделей.

В компании также допустили, что миру было бы полезно иметь возможность замедлить или временно приостановить разработку передовых ИИ-систем, чтобы общественные институты и исследования в области выравнивания успевали за прогрессом.

Параллельно представители стартапа предупредили: одностороннее замедление может сыграть против тех, кто тормозит — менее осторожные игроки смогут сократить отставание. Без глобального механизма координации решения о безопасности придется принимать под конкурентным и геополитическим давлением.

Напомним, в мае Anthropic опубликовала первый отчет по Project Glasswing — программе поиска уязвимостей с помощью модели Claude Mythos.

В том же месяце компания выпустила Claude Opus 4.8 и отдельно представила для Claude Code функцию динамических рабочих процессов.

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论