長文本成爲大模型新標配 國內外巨頭爭相突破40萬token

robot
摘要生成中

長文本能力成爲大模型公司的新"標配"

大模型正以驚人的速度提升其處理長文本的能力,從4000個token擴展到40萬個token。長文本處理能力似乎已成爲大模型廠商的又一新"標配"。

國外方面,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千增至1.6萬token,GPT-4從8千增至3.2萬token。OpenAI的主要競爭對手Anthropic則一次性將上下文長度提升到10萬token。LongLLaMA更是將上下文長度擴展到25.6萬token甚至更多。

國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術,可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,OpenAI、Anthropic、Meta、月之暗面等衆多頂級大模型公司和研究機構都將拓展上下文長度作爲升級重點。這些公司也都是資本市場追捧的熱門對象。OpenAI獲得近120億美元投資,Anthropic估值有望達到300億美元,月之暗面短短半年內完成近20億元融資。

大模型廠商競相攻克長文本技術,將上下文長度擴大100倍意味着什麼?

表面上看,這意味着模型可以輸入更長的文本,閱讀能力更強。GPT-3.5的4000 token僅能輸入約2000個漢字,而Kimi Chat的40萬token可支持輸入20萬漢字,足以閱讀一部長篇小說。

從更深層次看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。在這些領域,長文檔摘要、閱讀理解、問答等能力是基礎需求,也是亟待智能化升級的方向。

然而,類似於模型參數,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入並不直接等同於效果更好。關鍵在於模型如何有效利用上下文內容。

不過,目前國內外對文本長度的探索還未達到"臨界點"。各大模型公司仍在不斷突破,40萬token可能只是一個開始。

爲什麼要"卷"長文本?

月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。這也是各大模型公司當前聚焦長文本技術的原因所在。

例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色會忘記重要信息。在開發劇本殺類遊戲時,輸入長度不夠會導致規則和設定被削減,無法達到預期效果。在法律、銀行等專業領域,深度內容分析和生成常常受挫。

長文本在未來Agent和AI原生應用中也扮演重要角色。Agent需要依靠歷史信息進行規劃和決策,AI原生應用需要上下文來保持連貫、個性化的用戶體驗。

楊植麟認爲,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,執行步驟數即上下文長度。

同時,長文本可以通過提供更多上下文和細節信息,幫助模型更準確地判斷語義,減少歧義,提高推理準確性。

長文本技術既可以解決大模型早期的一些問題,增強某些功能,也是進一步推進產業應用落地的關鍵技術。這標志着通用大模型發展進入了從LLM到Long LLM的新階段。

以月之暗面新發布的Kimi Chat爲例,可以一窺Long LLM階段大模型的升級功能:

  • 對超長文本進行關鍵信息提取、總結和分析
  • 將論文直接轉化爲代碼,並能在其基礎上進行修改
  • 實現角色扮演,可與公衆人物或虛擬角色進行對話

這表明,對話機器人正在向專業化、個性化、深度化方向發展,這或許是撬動產業應用和超級APP落地的又一抓手。

楊植麟認爲,國內大模型市場會分爲toB和toC兩個陣營。在toC領域,會出現基於自研模型的超級應用。

不過,目前市面上的長文本對話場景仍有很大優化空間。如不支持聯網獲取最新信息、生成過程無法暫停修改、仍偶爾出現胡說八道的情況等。

長文本的"不可能三角"困境

在長文本技術中,存在文本長短、注意力和算力的"不可能三角"困境:

  • 文本越長,越難聚集充分注意力,難以完整消化
  • 注意力有限,短文本無法完整解讀復雜信息
  • 處理長文本需要大量算力,提高成本

這一困境的根源在於現有大模型主要基於Transformer結構。其中最重要的自注意力機制雖然能突破輸入順序的限制,但計算量會隨上下文長度呈平方級增長。

這就構成了"不可能三角"中的第一組矛盾:文本長短與注意力。同時,處理長文本需要更多算力,與算力稀缺的現狀又形成了第二組矛盾。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本,將長文本切分爲多個短文本處理

  2. 優化自注意力機制計算,如LongLoRA技術通過分組計算降低計算量

  3. 對模型進行優化,如LongLLaMA通過微調現有模型來支持更長序列

長文本的"不可能三角"困境或許暫時無解,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者間尋求平衡,既能處理足夠信息,又能兼顧注意力計算與算力成本。

TOKEN-2.12%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 分享
留言
0/400
Liquidation_Watchervip
· 07-15 12:13
算力这么贵 割韭菜还差不多
回復0
LiquidationAlertvip
· 07-13 09:58
看谁算力够硬气
回復0
0x谜语人vip
· 07-12 12:53
炒到现在还没接地气
回復0
跨链深呼吸vip
· 07-12 12:36
这瓶颈迟早得突破
回復0
社区潜水员vip
· 07-12 12:32
草 玩这么大
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)