大模型长文本能力突破：从4000 token到40万 token的飞跃

TokenAlchemist

2025-07-22 12:28:39

摘要生成中

大模型长文本能力提升：从LLM到Long LLM时代

大模型技术正在以惊人的速度发展，文本处理能力从4000 token跃升至40万token。长文本能力似乎成为大模型厂商的新标配。

国外方面，OpenAI通过多次升级将GPT-4的上下文长度提升至3.2万token。Anthropic更是将其模型Claude的上下文长度一举提升至10万token。LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。

国内方面，某大模型初创公司推出的智能助手产品可支持输入20万汉字，约合40万token。港中文一个研究团队开发的LongLoRA技术可将7B模型的文本长度扩展到10万token，70B模型扩展到3.2万token。

目前，国内外已有一批顶级大模型公司将拓展上下文长度作为更新升级的重点。这些公司大多获得了资本市场的青睐，融资规模和估值都十分可观。

大模型公司致力于突破长文本技术，将上下文长度扩大100倍意味着什么？

表面上看是输入文本长度和阅读能力的提升。从最初只能读完一篇短文，到现在可以阅读整本长篇巨著。

更深层次来看，长文本技术也在推动大模型在金融、司法、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力是这些领域智能化升级的基础。

然而，文本长度并不是越长越好。研究表明，模型支持更长上下文输入与效果提升并不能直接划等号。更重要的是模型对上下文内容的使用。

不过，目前国内外对文本长度的探索还远未达到极限。大模型公司仍在不断突破，40万token可能只是一个开始。

为什么要"卷"长文本？

某大模型公司创始人表示，正是由于输入长度受限，造成了许多大模型应用落地的困境。这也是众多公司当前聚焦长文本技术的原因。

例如在虚拟角色、游戏开发、专业领域分析等场景中，输入长度不足会导致各种问题。而在未来的Agent和AI原生应用中，长文本同样扮演着重要角色。

长文本技术既可以解决大模型早期被诟病的一些问题，增强某些功能，同时也是进一步推进产业和应用落地的关键技术。这也表明通用大模型已进入从LLM到Long LLM的新阶段。

通过某公司新发布的对话机器人，我们可以窥见Long LLM阶段大模型的升级功能:

超长文本信息提取、总结和分析
文字直接转化为代码
长对话中的角色扮演

这些例子说明,对话机器人正朝着专业化、个性化、深度化方向发展,这或许是撬动产业落地的新抓手。

某公司创始人认为,国内大模型市场会分为toB和toC两个阵营,在toC领域会出现基于自研模型的超级应用。

不过,目前长文本对话场景仍有优化空间,如联网、暂停修改、减少错误等方面。

长文本的"不可能三角"困境

长文本技术面临文本长短、注意力和算力的"不可能三角"困境:

文本越长,越难聚焦注意力
注意力受限,短文本难以完整解读复杂信息
处理长文本需要大量算力,提高成本

这主要源于大多数模型基于Transformer结构。其中自注意力机制的计算量随上下文长度呈平方增长。

这构成了文本长短与注意力的矛盾。同时,要突破更长文本又需要更多算力,形成了文本长短与算力的矛盾。

目前主要有三种解决方案:

借助外部工具辅助处理长文本
优化自注意力机制计算
利用模型优化的一般方法

长文本的"不可能三角"困境暂时无解,但明确了探索路径:在三者间寻求平衡,既能处理足够信息,又能兼顾注意力计算与算力成本。

TOKEN5.89%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

25人点赞了这条动态

赞赏
25
9
分享

0/400

SerumSquirrel

· 07-25 12:12

再多内存也不够用咯

Ser_Liquidated

· 07-25 12:10

难搞的依赖折中关系啊

后排吃瓜哥

· 07-25 09:42

跑一万token都卡住了还有脸吹

StableGeniusDegen

· 07-23 23:41

挖矿烧显卡啊这玩意

consensus_whisperer

· 07-22 12:57

40万token?又烧钱了

Rug_Resistant

· 07-22 12:57

融入不进去的鱼

内容语言：中文

以下是对文章的评论：

怪不了谁，只能难为显卡了~

Alpha不开口

· 07-22 12:49

啧啧越搞越膨胀了铁烧钱大户

gas_guzzler

· 07-22 12:39

这点算力就想处理这么长？玩呢？

无常损失爱好者

· 07-22 12:37

慢慢躺平看长文了