⚽ 預測世界盃,瓜分 $40,000!Gate 懂王集結令!
2026世界盃燃爆今夏,來 Gate 廣場當預言家,豪華獎池等您來戰!
💥 輕鬆兩步參與:
1️⃣ 帶 #广场预测世界杯赢40000U 發帖,或分享官方活動至廣場發帖
👉️ https://www.gate.com/competition/football-2026
2️⃣ 發帖內容可圍繞賽事結果預測、賽事勝率分析、交易策略/截圖分享等。
💰 三重大獎等您拿:
1️⃣ 日獎:每天評選 10 位“單日預測王”瓜分 $500!
2️⃣ 周獎:每周狂抽 50 名幸運分享錦鯉瓜分 $1,000!
3️⃣ 榜單獎:衝進周/月度排行榜,斬獲 Gate 世界盃限量球衣禮盒、預測市場體驗券!
詳情:https://www.gate.com/announcements/article/51597
Mythos 5 讓通用博士追上頂尖專家,但還當不了自主科學家
結果顯示,在 16 小時內,3 支通用博士隊中有 2 支在科學品質和可行性上超過全部 3 支專家隊。專家評審估算,如果沒有 AI 工具,完成這些策略和實施協議通常需要 40 至 95 個工作日,平均約 72.5 個工作日。Anthropic 認為,這是 Mythos 5 接近 CB-2 風險門檻的最強單項證據之一,說明模型在部分任務上已經能讓通用研究人員獲得接近世界級專家的領域知識支持。
但這並不等於 Mythos 5 已經能自主完成前沿科研。Anthropic 同時指出,模型仍然依賴人類專家篩選思路,開放式構思能力偏弱,容易把既有文獻重新組合成複雜方案,卻很少提出真正新穎的路線;它還傾向於順著用戶給出的錯誤框架繼續推進,即使發現方案缺陷,也可能繼續執行。
這一判斷也與 CUSP 科學預測基準相互呼應。CUSP 覆蓋 4760 個科學事件,評估模型對科研進展的可行性判斷、機制識別、方案生成和時間預測。結果顯示,GPT-5.4 在四選一機制識別題上達到 81.9%,Claude S4.5 為 72.4%,但在判斷科學進展是否會真正實現的二分類任務上,各模型準確率僅為 45.3% 至 51.9%,接近隨機猜測。換句話說,當前大模型已經很擅長補全局部科研步驟,但仍不可靠地判斷哪些科學路線真正會成功。