Anthropic 提醒關於人工智慧自我完善的風險 - ForkLog:加密貨幣、人工智慧、奇點、未來

ии-стартап Anthropic AI# Anthropic 預警人工智慧自我完善的風險

Anthropic 團隊成員越來越多地將新模型的開發大部分交由人工智慧系統完成。公司認為這是接近遞歸自我完善的跡象。

根據內部資料,超過80%的公司現有產品代碼由 Claude 撰寫。而在第二季度,每位工程師的代碼量較2024年增長了八倍。

來源:Anthropic Institute。Anthropic Institute 的主管瑪麗娜·法瓦羅(Marina Favaro)和公司聯合創始人傑克·克拉克(Jack Clark)表示,若計算資源充足,這一趨勢可能導致一個「能夠完全自主設計和開發其繼任者」的系統。

「我們尚未到達不可逆轉的點,遞歸自我完善並非不可避免。但它可能比大多數機構準備好之前更早到來,」— 專家們強調。

基準測試與指標

在四月,Claude 完成了超過800次修正——根據監督工程師的評估,這需要人類四年的時間。

在公開任務中,Claude 成功率在2026年5月提升至76%——六個月內增加了50個百分點。

來源:Anthropic Institute。Anthropic 表示,人工智慧能夠可靠自主完成的任務持續時間約每四個月翻倍(之前為七個月)。

在加速小型人工智慧模型學習的任務中,2025年5月,Claude Opus 4 的速度平均提升約三倍,而 Mythos Preview 在2026年4月則約52倍。

來源:Anthropic Institute。在內部測試中,Mythos Preview 展示了解決人工智慧安全研究問題的能力。在800小時的工作中,代理團隊解決了97%的問題差距,而兩名人類研究員一週內僅完成了23%的工作量。

新的瓶頸

儘管在代碼撰寫方面取得了成功,但人類在「研究判斷」和確定戰略目標方面仍具有優勢。

Anthropic 認為,未來開發者的角色將從撰寫代碼轉向深入審查神經網絡的結果。人類的審核可能成為新模型開發速度的主要阻礙。

公司也認為,讓社會制度和對齊研究能夠跟上進展,暫時放慢或停止先進人工智慧系統的開發,將是有益的。

同時,該創業公司代表警告:單方面放慢速度可能對那些拖延者不利——較不謹慎的玩家可能會縮小差距。在沒有全球協調機制的情況下,安全決策將在競爭和地緣政治壓力下做出。

提醒一下,五月份,Anthropic 發布了第一份關於 Project Glasswing 的報告——該計劃旨在利用 Claude Mythos 模型尋找漏洞。

同月,公司發布了 Claude Opus 4.8,並專門為 Claude Code 引入了動態工作流程功能。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆