✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
我一直在觀察企業大規模部署生成式人工智慧(Gen AI),但有一個反覆出現的模式,沒有人真正談論,直到為時已晚:令牌膨脹。你部署了一個聊天機器人,演示效果很好,但三個月後,你卻看到毫無道理的帳單,心想一切究竟出了什麼問題。
事情的真相是這樣的。大多數團隊專注於讓AI運作起來,而不是關注其運作的效率。他們塞入大量上下文,建立龐大的系統提示,讓對話歷史無限累積。每個決策在孤立情況下似乎都合理,但將它們疊加在每日數千次互動中?這才是異常開始在你的成本報告中顯現的地方,而此時你已經深陷其中。
讓我來拆解我在實務中所見的情況。一個我合作過的醫療客戶,使用AI系統處理醫療記錄。他們的專業術語——像是腦電圖(electroencephalogram)、免疫組織化學(immunohistochemistry)——在轉換成令牌時,會被拆分成多個令牌。與此同時,他們的系統提示已經因加入合規檢查和邊緣案例處理而膨脹到數千令牌。到對話進行到第20輪時,他們每次新用戶查詢都要處理超過7000個令牌的歷史記錄。這相當於第一個回合成本的14倍。
真正的問題不僅僅是金錢,雖然這很重要。還有延遲。上下文膨脹會嚴重拖慢回應時間。在患者就診時,醫療專業人員等待AI回答三秒就會完全放棄使用這個工具。金融交易者需要比市場變動更快的分析速度。當你的令牌策略忽視延遲問題時,你已經輸了。
那麼,什麼方法才真正有效?我見過團隊在三個具體方法上取得了實質進展。
第一,停止將上下文當作雜物箱。實施智能檢索,而不是將所有內容塞入上下文窗口。檢索增強生成(Retrieval-Augmented Generation, RAG)架構——維護索引化的知識庫,只提取相關內容——通常能將令牌消耗降低60-90%,相比於塞滿上下文。但這其中的關鍵是:需要在數據清理和檢索調整上投入真正的資源。將其視為即插即用的方案的團隊,通常只是用另一種低效來取代。
第二,設計不同的對話流程。大多數對話AI實作會在每次回合都重播整個歷史。利用摘要壓縮舊的交流內容,在自然停頓點分段對話,實施提示緩存來應對靜態組件。有些應用甚至不需要多輪對話——設計良好的單回合提示,往往比聊天機器人界面更優,且令牌成本也低得多。
第三,也是大多數組織失敗的地方——建立真正的治理機制。在設計階段設定令牌預算。每月進行消耗審查,發現優化空間。成立架構委員會,維護共享的監控工具,並記錄有效的做法。沒有這些措施,令牌優化就只是一個事後想起來的想法,而不是一門工程學科。
真正能在Gen AI中勝出的企業,是那些將令牌視為戰略資源,而非僅僅是帳單項目的人。他們監控消耗模式,提前捕捉異常,並從一開始就將效率融入系統設計。其他人則會醒來發現季度審查毫無意義,紙上談兵的計畫無法在實務中擴展。