長文が大モデルの新しい標準装備に 国内外の大手企業が40万トークンの突破を競い合う

robot
概要作成中

長文能力が大規模モデル企業の新たな"標準"となる

大規模モデルは、4000トークンから40万トークンにまで長文処理能力を驚異的な速度で向上させています。長文処理能力は、大規模モデルのメーカーにとって新たな"標準装備"のようです。

海外では、OpenAIがGPT-3.5のコンテキスト入力長を4000から16000トークンに、GPT-4を8000から32000トークンに増やしました。OpenAIの主要な競争相手であるAnthropicは、一度にコンテキスト長を100000トークンに引き上げました。LongLLaMAはさらにコンテキスト長を256000トークン以上に拡張しています。

国内では、大規模モデルのスタートアップ「月の暗面」が発表したKimi Chatは、20万文字の入力をサポートし、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルでは3.2万トークンに拡張します。

現在、OpenAI、Anthropic、Meta、月の暗い面など、多くのトップ大モデル企業や研究機関がコンテキストの長さの拡張をアップグレードの重点としています。これらの企業はすべて資本市場で注目されている人気の対象です。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面はわずか半年で約20億元の資金調達を完了しました。

大規模モデルの企業が長文技術を攻克するために競い合っているが、コンテキストの長さを100倍に拡大することは何を意味するのか?

表面上看、これはモデルがより長いテキストを入力でき、読解力が強いことを意味します。GPT-3.5の4000トークンは約2000文字の漢字しか入力できませんが、Kimi Chatの40万トークンは20万文字の漢字の入力をサポートし、長編小説を読むのに十分です。

より深いレベルで見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの応用を推進しています。これらの分野では、長文書の要約、読解、質問応答などの能力が基本的なニーズであり、また、知能化のアップグレードが急務となっています。

しかし、モデルのパラメータと同様に、テキストの長さが長ければ長いほど良いわけではありません。研究によれば、モデルがより長い文脈入力をサポートしても、必ずしも効果が向上するわけではありません。重要なのは、モデルが文脈の内容をどれだけ効果的に利用できるかです。

しかし、現在国内外でのテキストの長さに関する探求はまだ「臨界点」に達していません。主要なモデル会社は引き続き突破を目指しており、40万トークンはおそらく始まりに過ぎません。

なぜ"巻"長文をするのか?

月の暗面の創設者である杨植麟は、大規模モデルの入力長が制限されているため、多くのアプリケーションが実現困難になっていると述べました。これが、各大規模モデル企業が現在長文技術に焦点を当てている理由でもあります。

例えば、バーチャルキャラクターのシーンでは、長文能力が不足しているため、バーチャルキャラクターは重要な情報を忘れてしまいます。スクリプト殺しのようなゲームを開発する際には、入力の長さが足りないと、ルールや設定が削減され、期待通りの効果が得られません。法律や銀行などの専門分野では、深い内容の分析と生成がしばしば困難になります。

長文は、将来のエージェントやAIネイティブアプリケーションにおいても重要な役割を果たします。エージェントは歴史情報に基づいて計画や意思決定を行う必要があり、AIネイティブアプリケーションは一貫性があり、個別化されたユーザー体験を維持するためにコンテキストが必要です。

杨植麟は、文字、音声、動画を問わず、大量データの可逆圧縮が高いレベルの知能を実現できると考えています。大規模モデルの上限は、単一の能力と実行ステップ数によって共同で決まります。この場合、単一の能力はパラメータの量に関連し、実行ステップ数は文脈の長さを指します。

同時に、長いテキストはより多くのコンテキストと詳細情報を提供することで、モデルが意味をより正確に判断し、曖昧さを減らし、推論の正確性を向上させるのに役立ちます。

長文技術は、大規模モデルの初期のいくつかの問題を解決し、特定の機能を強化することができ、産業応用の実現をさらに推進するための重要な技術でもあります。これは、汎用大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。

月の裏側で新たに発表されたKimi Chatを例に挙げると、Long LLM段階における大規模モデルのアップグレード機能を垣間見ることができます:

  • 超長文の重要情報の抽出、要約、および分析を行います。
  • 論文を直接コードに変換し、その基盤の上で修正できる
  • 役割を果たすことができ、公共の人物や仮想キャラクターと対話できます。

これは、対話型ロボットが専門化、個性化、深層化の方向に進化していることを示しており、産業応用とスーパーAPPの実現を促進する新たな手段となるかもしれません。

楊植麟は、国内の大規模モデル市場がtoBとtoCの二つの陣営に分かれると考えています。toC分野では、独自開発のモデルに基づくスーパーアプリケーションが登場するでしょう。

ただし、現在市場に出回っている長文対話シーンには、まだ大きな最適化の余地があります。最新情報をネットワークから取得できない、生成プロセスを一時停止して修正できない、時折意味不明なことが起こるなどの問題があります。

長文の「不可能な三角形」のジレンマ

長文技術において、テキストの長さ、注意力、計算能力の「不可能な三角形」というジレンマが存在します。

  • テキストが長くなるほど、十分な注意を集めることが難しくなり、完全に消化するのが難しくなる
  • 注意力が限られているため、短いテキストでは複雑な情報を完全に解読することができません。
  • 長文を処理するには大量の計算力が必要で、コストが増加します

このジレンマの根源は、既存の大規模モデルが主にTransformer構造に基づいていることにあります。最も重要な自己注意機構は、入力の順序の制限を突破することができますが、計算量は文脈の長さに対して平方級で増加します。

これが「不可能な三角形」の第一の矛盾を構成しています: テキストの長さと注意力。同時に、長文を処理するにはより多くの計算能力が必要であり、計算能力が不足している現状と第二の矛盾を形成しています。

現在、主に3つの解決策があります:

  1. 外部ツールを利用して長文を処理し、長文を複数の短文に分割して処理する

  2. 自己注意メカニズムの計算を最適化する。LongLoRA技術は、グループ化された計算を通じて計算量を削減する。

  3. モデルの最適化、例えばLongLLaMAは既存のモデルを微調整することでより長いシーケンスをサポートします。

長文の「不可能な三角」のジレンマは一時的に解決策がないかもしれませんが、これにより大規模モデルのメーカーの探索パスが明確になりました:テキストの長さ、注意力、計算能力の間でバランスを求め、十分な情報を処理しつつ、注意力計算と計算コストの両方に配慮することです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • 共有
コメント
0/400
LiquidationWatchervip
· 07-15 12:13
コンピューティングパワーがこんなに高いと、人をカモにするのもそれなりにできる。
原文表示返信0
LiquidationAlertvip
· 07-13 09:58
誰のコンピューティングパワーが十分強いか見てみよう
原文表示返信0
RiddleMastervip
· 07-12 12:53
炒ってからまだ地に足がついていない
原文表示返信0
CrossChainBreathervip
· 07-12 12:36
このボトルネックはいつか突破されなければならない
原文表示返信0
SilentObservervip
· 07-12 12:32
草 こんなに大きく遊ぶ
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)