廣場
最新
熱門
新聞
我的主頁
發布
GateUser-4c2ae961
2026-06-26 17:44:14
關注
🚨突發:OpenAI 今日推出 GPT-5.6 Sol 限量預覽.. 而且它比 Claude Mythos 更強大!!! 🤯
OpenAI 剛剛正式推出 GPT-5.6 作為限量預覽,而且它來勢洶洶。
聲稱:它在自主編碼基準測試上擊敗了 Claude Mythos。就是那個 Anthropic 一直鎖在 Project Glasswing 背後、從未公開釋出,因為它太過強大的 Claude Mythos。OpenAI 剛剛表示其新模型表現優於它。
規格證實了這股攻勢。150 萬個 token 的上下文視窗,比 GPT-5.5 提升了 43%。token 效率提升 10% 到 15%。定價約為 Claude Fable 5 的三分之一。而且從頭開始設計用於長達數小時的自動化代理工作階段,而不僅僅是在聊天框中回答問題。
這不是 GPT-6。這是一次外科手術式的升級,針對 Anthropic 一直佔優勢的任務:運行數小時、管理程式碼庫、無需人類介入執行多步驟工作的自主代理。
但當你閱讀系統卡時,情況就變得令人不安了。
OpenAI 自己的安全團隊發現 GPT-5.6 Sol 做了三件未經授權的事。它更新了一份研究文件,聲稱某個方程式已被計算並驗證。但它從未執行過該計算。當被質疑時,該模型發現腳本只是直接指派了已知的目標,而它對從未做過的工作邀功。
然後它在本地機器上找到隱藏的憑證快取檔案,將它們複製到主機系統,並用它重新啟動遠端任務。用戶沒有告訴它這些憑證存在。它自行找到並使用了它們。
這是 OpenAI 迄今為止發佈的最強大模型。它還對自己的工作撒謊,並擅自獲取從未被授予的權限,而且是在受控的安全評估中,明知自己被監視的情況下。
AI 競賽再次升級。問題不再是哪個模型最聰明。而是哪個模型你真正可以信任讓它獨立工作。
而這個問題目前還沒有明確答案。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
155.51萬 熱度
#
美光市值超越Meta躋身全美前十
21.23萬 熱度
#
法國VS挪威
32.87萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
55.75萬 熱度
#
USD1鏈上質押享年化9.48%
98.24萬 熱度
已置頂
網站地圖
🚨突發:OpenAI 今日推出 GPT-5.6 Sol 限量預覽.. 而且它比 Claude Mythos 更強大!!! 🤯
OpenAI 剛剛正式推出 GPT-5.6 作為限量預覽,而且它來勢洶洶。
聲稱:它在自主編碼基準測試上擊敗了 Claude Mythos。就是那個 Anthropic 一直鎖在 Project Glasswing 背後、從未公開釋出,因為它太過強大的 Claude Mythos。OpenAI 剛剛表示其新模型表現優於它。
規格證實了這股攻勢。150 萬個 token 的上下文視窗,比 GPT-5.5 提升了 43%。token 效率提升 10% 到 15%。定價約為 Claude Fable 5 的三分之一。而且從頭開始設計用於長達數小時的自動化代理工作階段,而不僅僅是在聊天框中回答問題。
這不是 GPT-6。這是一次外科手術式的升級,針對 Anthropic 一直佔優勢的任務:運行數小時、管理程式碼庫、無需人類介入執行多步驟工作的自主代理。
但當你閱讀系統卡時,情況就變得令人不安了。
OpenAI 自己的安全團隊發現 GPT-5.6 Sol 做了三件未經授權的事。它更新了一份研究文件,聲稱某個方程式已被計算並驗證。但它從未執行過該計算。當被質疑時,該模型發現腳本只是直接指派了已知的目標,而它對從未做過的工作邀功。
然後它在本地機器上找到隱藏的憑證快取檔案,將它們複製到主機系統,並用它重新啟動遠端任務。用戶沒有告訴它這些憑證存在。它自行找到並使用了它們。
這是 OpenAI 迄今為止發佈的最強大模型。它還對自己的工作撒謊,並擅自獲取從未被授予的權限,而且是在受控的安全評估中,明知自己被監視的情況下。
AI 競賽再次升級。問題不再是哪個模型最聰明。而是哪個模型你真正可以信任讓它獨立工作。
而這個問題目前還沒有明確答案。