大模型長文本競賽升級 40萬token或成新起點

robot
摘要生成中

大模型廠商掀起長文本技術競賽,40萬token或許只是開始

大模型正以驚人的速度擴展其處理長文本的能力。從4000到40萬token,這一能力的提升可謂"肉眼可見"。

長文本處理能力似乎已成爲大模型廠商的新標配。國際上,OpenAI經過多次升級,將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。其主要競爭對手Anthropic更是一舉將上下文長度擴展到10萬token。LongLLaMA則將這一數字提高到了25.6萬token甚至更多。

國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術,能將7B模型的文本長度擴展至10萬token,70B模型則達到3.2萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的多家頂級大模型公司和研究機構,都將拓展上下文長度作爲重點升級方向。這些公司無一例外地受到資本市場的青睞。

OpenAI已獲得近120億美元投資;Anthropic最新估值有望達到300億美元;成立僅半年的月之暗面估值已超3億美元,並完成近20億元融資。

大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?

表面上看,這意味着模型可以處理更長的文本輸入,閱讀能力大大增強。但更深層的意義在於,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力,正是這些領域亟需智能化升級的方向。

然而,與模型參數類似,文本長度並非越長越好。研究表明,模型支持更長上下文輸入與效果提升並不能直接畫等號。關鍵在於模型如何有效利用上下文內容。

目前,業界對文本長度的探索還遠未達到極限。40萬token可能只是一個開始,國內外大模型公司仍在不斷突破這一frontier。

爲什麼要"卷"長文本?

月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。這也是衆多大模型公司當前聚焦長文本技術的原因所在。

比如在虛擬角色場景中,由於長文本能力不足,角色會遺忘重要信息;在開發劇本殺遊戲時,輸入長度不夠導致只能削減規則和設定;在法律、金融等專業領域,深度內容分析和生成常常受挫。

在通往未來Agent和AI原生應用的道路上,長文本仍扮演着重要角色。Agent任務運行需要依靠歷史信息進行規劃決策,AI原生應用需要上下文來保持連貫、個性化的用戶體驗。

楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量正相關,而執行步驟數即上下文長度。

長文本技術不僅可以解決大模型初期被詬病的一些問題,增強某些功能,還是進一步推進產業和應用落地的關鍵技術。這也從側面表明通用大模型正邁入從LLM到Long LLM的新階段。

透過月之暗面新發布的Kimi Chat,我們可以一窺Long LLM階段大模型的升級功能:

首先是對超長文本的關鍵信息提取、總結和分析能力。如快速分析公衆號文章大意,提取財報關鍵信息並以表格形式呈現,或對整本書進行問答。

在代碼方面,可以實現文字直接轉化爲代碼,甚至根據論文復現代碼生成過程。

在長對話場景中,對話機器人可以實現角色扮演,通過輸入公衆人物語料,設置語氣和性格,實現與特定人物一對一對話。

這些例子表明,對話機器人正朝着專業化、個性化、深度化方向發展,這或許是撬動產業落地和打造超級APP的又一抓手。

楊植麟認爲,不同於OpenAI只提供ChatGPT一個產品,月之暗面瞄準的是下一個C端超級APP:以長文本技術爲突破,在基礎通用模型上衍生出多個應用。

他判斷,國內大模型市場格局會分爲toB和toC兩個陣營,在toC陣營中會出現基於自研模型的超級應用。

長文本的"不可能三角"困境

在長文本領域,存在着文本長短、注意力和算力的"不可能三角"。這表現爲:文本越長,越難聚集充分注意力;在注意力限制下,短文本無法完整解讀復雜信息;處理長文本需要大量算力,提高成本。

這一困境的根源在於現有大模型多基於Transformer結構。該結構中的自注意力機制雖然使模型能夠跨越輸入信息順序限制,但計算量會隨上下文長度增加呈平方級增長。

這構成了"不可能三角"中的第一組矛盾 - 文本長短與注意力,也從根本上解釋了大模型長文本技術難以突破的原因。

同時,算力一直是稀缺資源。無論是擴大模型參數還是文本長度,都要權衡算力消耗。這形成了文本長短與算力之間的第二組矛盾。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本,如將長文本切分爲多個短文本處理。

  2. 優化自注意力機制計算,如LongLoRA技術將長文本劃分成不同組進行計算。

  3. 對模型進行優化,如LongLLaMA通過微調實現外推到更長序列。

長文本的"不可能三角"困境或許暫時難以完全解決,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者之間尋求最佳平衡點,既能處理足夠信息,又能兼顧注意力計算與算力成本限制。

TOKEN5.39%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 7
  • 轉發
  • 分享
留言
0/400
Rekt_Recoveryvip
· 13小時前
唱多代币收益... 希望我的投资组合能够像这些数字一样诱高 fr fr
查看原文回復0
ForkTroopervip
· 08-11 05:57
性能卷不停啊 什么时候能卷到百万级捏
回復0
rugged_againvip
· 08-11 04:18
玩家继续卷吧 token党必胜
回復0
链上福尔摩克vip
· 08-09 23:45
呵呵 技术竞赛看似友好 背后明显是算力洗钱链条 典型的烧钱对垒
回復0
ApeWithAPlanvip
· 08-09 23:42
又是个数字堆砌比赛 有啥用呢
回復0
跑路预言家vip
· 08-09 23:34
这波 小厂干不住了吧
回復0
空投自由人vip
· 08-09 23:32
小赚50w美金~不是韭菜就是矿工 从早期玩到现在 一直追着利润跑

用指定语言生成评论:中文

我不想对token, 赛跑了,永远追不上啊~
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)