⚽ 預測世界盃,瓜分 $40,000!Gate 懂王集結令!
2026世界盃燃爆今夏,來 Gate 廣場當預言家,豪華獎池等您來戰!
💥 輕鬆兩步參與:
1️⃣ 帶 #广场预测世界杯赢40000U 發帖,或分享官方活動至廣場發帖
👉️ https://www.gate.com/competition/football-2026
2️⃣ 發帖內容可圍繞賽事結果預測、賽事勝率分析、交易策略/截圖分享等。
💰 三重大獎等您拿:
1️⃣ 日獎:每天評選 10 位“單日預測王”瓜分 $500!
2️⃣ 周獎:每周狂抽 50 名幸運分享錦鯉瓜分 $1,000!
3️⃣ 榜單獎:衝進周/月度排行榜,斬獲 Gate 世界盃限量球衣禮盒、預測市場體驗券!
詳情:https://www.gate.com/announcements/article/51597
GLM-5.1讓開源模型第一次在長時間工程任務上站穩腳跟
開源模型開始在長時間任務上較真了
OpenRouter宣布集成GLM-5.1,把話題從"參數有多大"拉到了"能連續幹多久"。GLM-5.1在沒有人盯著的情況下對向量資料庫優化跑了8小時,迭代600多次,性能提升6倍。這改變了開源模型的定位:不再只是便宜的替代品,在工程類工作流程裡可能更能打——特別是Claude Opus 4.6這類閉源模型經常試幾下就不再改進了。Hugging Face高層幫著宣傳,但推文基本沒提算力成本的事。
反應還是老樣子,兩極分化:
幾個值得注意的點:
跑分成績和實際落地之間的差距
"長時間任務完成率"這個說法引起了爭論。Z.ai的演示(比如自己搭Linux桌面)和榜單上GLM-5.1在Terminal-Bench 2.0的63.5%(優化後69%)對不上。行銷和實測之間有差距:宣傳需要熱度,但企業要的是能驗證的案例,比如Bella Protocol的信號機器人集成。VentureBeat和Computerworld用"8小時工作日"這個角度把投資者預期抬高了。參數量在"能持續產出"面前變得沒那麼重要——GLM-5.1在這點上交了卷,但運維成本也更高。
| 立場 | 證據和來源 | 對行業的影響 | 怎麼判斷 | |---|---|---|---| | 開源樂觀派 | Z.ai博文:Vector-DB-Bench上21.5k QPS;Hugging Face CEO背書 | 強化"Agentic AI民主化"的說法,加速對開源權重的投入 | 真正的價值在於給特定行業(比如金融)定制,不是通吃 | | 閉源懷疑派 | SWE-Bench Pro 58.4% vs. Claude 57.3%;Terminal-Bench的差距 | 加深對開源可靠性的擔憂,企業從GPT遷移會更慢 | 企業大概會兩條腿走路:需要審計代碼的場景用GLM | | 企業務實派 | OpenRouter/Vercel集成;Bella Protocol交易機器人上線 | 關注點回到部署成本,RFP傾向MIT許可證 | 監管行業自托管AI會加速,雲上閉源壓力更大 | | 榜單純粹派 | Hugging Face倉庫基準;Artificial Analysis Intelligence Index 51/100 | 用"輸出太長、價格太貴($4.40/百萬輸出token)"潑冷水 | 方向對:押注Serving優化,別追榜 |
這條傳播路徑——推文到專家轉發再到媒體跟進——逼著閉源實驗室解釋為什麼要收那麼貴。Anthropic可能會推"更快版本"(比如Claude Opus 4.6 Fast)來應對。市場習慣盯著SOTA看,但低估了地緣因素可能造成的市場分裂。GLM-5.1正在測試中國AI出海策略能走多遠。
結論:GLM-5.1把"能連續跑幾個小時"變成了工程任務的核心指標,開源在特定工作流程裡開始成為預設選項。現在花精力做效率優化和混合架構驗證的團隊,下一階段會更有優勢。
重要性:高
分類:模型發布、行業趨勢、開源
判斷:對願意自己搭建和調參的Builder、做基礎設施的基金來說,這是早期紅利窗口。只追通用對話能力的,相關度不高。現在不動手做長時間任務和Serving優化實驗的團隊,下一輪企業落地潮會落後。