长文本成为大模型新标配 国内外巨头争相突破40万token

robot
摘要生成中

长文本能力成为大模型公司的新"标配"

大模型正以惊人的速度提升其处理长文本的能力,从4000个token扩展到40万个token。长文本处理能力似乎已成为大模型厂商的又一新"标配"。

国外方面,OpenAI通过多次升级将GPT-3.5的上下文输入长度从4千增至1.6万token,GPT-4从8千增至3.2万token。OpenAI的主要竞争对手Anthropic则一次性将上下文长度提升到10万token。LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。

国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术,可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。

目前,OpenAI、Anthropic、Meta、月之暗面等众多顶级大模型公司和研究机构都将拓展上下文长度作为升级重点。这些公司也都是资本市场追捧的热门对象。OpenAI获得近120亿美元投资,Anthropic估值有望达到300亿美元,月之暗面短短半年内完成近20亿元融资。

大模型厂商竞相攻克长文本技术,将上下文长度扩大100倍意味着什么?

表面上看,这意味着模型可以输入更长的文本,阅读能力更强。GPT-3.5的4000 token仅能输入约2000个汉字,而Kimi Chat的40万token可支持输入20万汉字,足以阅读一部长篇小说。

从更深层次看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用落地。在这些领域,长文档摘要、阅读理解、问答等能力是基础需求,也是亟待智能化升级的方向。

然而,类似于模型参数,文本长度并非越长越好。研究表明,模型支持更长的上下文输入并不直接等同于效果更好。关键在于模型如何有效利用上下文内容。

不过,目前国内外对文本长度的探索还未达到"临界点"。各大模型公司仍在不断突破,40万token可能只是一个开始。

为什么要"卷"长文本?

月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,才造成了许多应用落地的困境。这也是各大模型公司当前聚焦长文本技术的原因所在。

例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色会忘记重要信息。在开发剧本杀类游戏时,输入长度不够会导致规则和设定被削减,无法达到预期效果。在法律、银行等专业领域,深度内容分析和生成常常受挫。

长文本在未来Agent和AI原生应用中也扮演重要角色。Agent需要依靠历史信息进行规划和决策,AI原生应用需要上下文来保持连贯、个性化的用户体验。

杨植麟认为,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,执行步骤数即上下文长度。

同时,长文本可以通过提供更多上下文和细节信息,帮助模型更准确地判断语义,减少歧义,提高推理准确性。

长文本技术既可以解决大模型早期的一些问题,增强某些功能,也是进一步推进产业应用落地的关键技术。这标志着通用大模型发展进入了从LLM到Long LLM的新阶段。

以月之暗面新发布的Kimi Chat为例,可以一窥Long LLM阶段大模型的升级功能:

  • 对超长文本进行关键信息提取、总结和分析
  • 将论文直接转化为代码,并能在其基础上进行修改
  • 实现角色扮演,可与公众人物或虚拟角色进行对话

这表明,对话机器人正在向专业化、个性化、深度化方向发展,这或许是撬动产业应用和超级APP落地的又一抓手。

杨植麟认为,国内大模型市场会分为toB和toC两个阵营。在toC领域,会出现基于自研模型的超级应用。

不过,目前市面上的长文本对话场景仍有很大优化空间。如不支持联网获取最新信息、生成过程无法暂停修改、仍偶尔出现胡说八道的情况等。

长文本的"不可能三角"困境

在长文本技术中,存在文本长短、注意力和算力的"不可能三角"困境:

  • 文本越长,越难聚集充分注意力,难以完整消化
  • 注意力有限,短文本无法完整解读复杂信息
  • 处理长文本需要大量算力,提高成本

这一困境的根源在于现有大模型主要基于Transformer结构。其中最重要的自注意力机制虽然能突破输入顺序的限制,但计算量会随上下文长度呈平方级增长。

这就构成了"不可能三角"中的第一组矛盾:文本长短与注意力。同时,处理长文本需要更多算力,与算力稀缺的现状又形成了第二组矛盾。

目前主要有三种解决方案:

  1. 借助外部工具辅助处理长文本,将长文本切分为多个短文本处理

  2. 优化自注意力机制计算,如LongLoRA技术通过分组计算降低计算量

  3. 对模型进行优化,如LongLLaMA通过微调现有模型来支持更长序列

长文本的"不可能三角"困境或许暂时无解,但这也明确了大模型厂商的探索路径:在文本长短、注意力和算力三者间寻求平衡,既能处理足够信息,又能兼顾注意力计算与算力成本。

TOKEN4.4%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 分享
评论
0/400
Liquidation_Watchervip
· 07-15 12:13
算力这么贵 割韭菜还差不多
回复0
LiquidationAlertvip
· 07-13 09:58
看谁算力够硬气
回复0
0x谜语人vip
· 07-12 12:53
炒到现在还没接地气
回复0
跨链深呼吸vip
· 07-12 12:36
这瓶颈迟早得突破
回复0
社区潜水员vip
· 07-12 12:32
草 玩这么大
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)