OpenAI 發現新方法將推理成本減半

robot
摘要生成中
根據知情人士透露,此前未公開的消息是:本月早些時候,OpenAI的工程師告知一些同事,依賴於幾項新開發的優化技術,他們找到了一種能將模型推理成本降低超過一半的解決方案。將這項新技術應用於免費/付費帳戶訪客使用ChatGPT的場景後,所需的Nvidia圖形處理器(GPU)數量減少到僅幾百個——這是一個非常低的數字。目前尚不清楚OpenAI使用了何種具體技術手段來實現這種計算效率的顯著提升。業界常見的優化方法通常包括:量化壓縮、鍵值緩存、將用戶查詢以批次處理而非逐一計算,以及將部分請求導向低功耗的輕量模型或模型分片進行回應。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆