視覺和語言徹底分家,意味著以後人機交互可能變成純對話驅動畫面,交互範式要變天了

查看原文
币 界 网
幣界網消息,AI姨在Latent Space播客中指出,當前的視頻與圖像生成模型並非真正理解物理世界,擴散模型本質上只是一個不具備物理認知能力的像素級渲染器。以英偉達Cosmos模型為例,負責畫面渲染的核心擴散模型僅有7b參數,而真正的智能中樞是由大語言模型(LLM)擔任的提示詞重寫器。最終視頻的邏輯質量與匹配度,幾乎完全取決於語言模型對提示詞的重寫質量,而非擴散模型本身。這種視覺與語言的解耦預示著人機交互將迎來徹底重構。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆