大規模モデルの長文能力が40万トークンを突破し、AIの金融や法律などの分野での応用を推進します。

robot
概要作成中

大規模モデルの長文能力の大競争:4000から40万トークンまで、AIの"読解力"が急上昇

大規模モデルは驚異的な速度で長文処理能力を向上させています。初めは4000トークンから現在の40万トークンに至り、長文能力は大規模モデルのメーカーにとって新たな標準となっているようです。

国際的に、OpenAIは複数回のアップグレードを通じてGPT-3.5のコンテキスト入力の長さを4000から16000トークンに引き上げ、GPT-4は8000から32000トークンに増加させました。その競合であるAnthropicは、コンテキストの長さを一挙に100000トークンに引き上げました。LongLLaMAはさらにコンテキストの長さを256000トークン以上に拡張しました。

国内において、大モデルのスタートアップ企業である月の暗面が発表したKimi Chatは、20万の漢字を入力することができ、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルを3.2万トークンに拡張します。

現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップモデル企業や研究機関が、コンテキストの長さの拡張を重点的なアップグレードの方向性としています。これらの企業は一般的に資本市場から好まれ、資金調達規模と評価が急速に成長しています。

大規模モデル企業が長文技術をこれほど重視しているということは、40万トークンの突破は何を意味するのでしょうか?表面的には、これはモデルの入力テキストの長さと読解能力が大幅に向上したことを示しています。初めは短い文章しか処理できなかったものが、今では長編小説全体を読むことができ、モデルの応用シーンが著しく広がりました。

より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの応用を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野における知能化のアップグレードの鍵です。

しかし、モデルのパラメータと同様に、テキストの長さは長ければ良いというわけではありません。研究によると、モデルがサポートするコンテキストの長さと効果の間には単純な正の相関関係は存在しません。重要なのは、モデルがコンテキストの内容をどのように効果的に活用するかです。

現在、長文技術の探索はまだ限界に達していません。国内外の大規模モデル企業は引き続き突破を続けており、40万トークンはおそらく始まりに過ぎません。

なぜ大規模モデル企業は長文を競って「巻く」のか?

月の暗い面の創設者、ヤン・チーリンは、大規模モデルの入力長さの制限が多くのアプリケーションの実用化の困難を引き起こしていると述べており、これが現在の多くの企業が長文技術に焦点を当てている理由である。

例えば、バーチャルキャラクターのシーンにおいて、長文能力が不足しているため、バーチャルキャラクターが重要な情報を忘れてしまうことがあります。スクリプト殺しタイプのゲームを開発する際、入力の長さが不足すると、ルールや設定が削減され、ゲームの効果に影響を与えることがあります。法律や金融などの専門分野においても、深い内容の分析や生成が制限されることがよくあります。

長文は将来のエージェントとAIネイティブアプリケーションにおいて重要な役割を果たします。エージェントは計画と意思決定のために歴史的情報に依存し、AIネイティブアプリケーションは一貫性があり、個別化されたユーザーエクスペリエンスを維持するためにコンテキストを必要とします。

楊植麟は、大規模モデルの上限が単ステップ能力と実行ステップ数の両方によって決まると考えています。単ステップ能力はパラメーター量に関連し、実行ステップ数は文脈の長さを指します。長文技術は、大規模モデルの初期の問題を解決するだけでなく、産業とアプリケーションの実用化を推進する重要な技術の一つです。

月の裏側から新たに発表されたKimi Chatを通じて、長文時代の大規模モデルのアップグレード機能を垣間見ることができます:

  1. 超長文からの重要な情報の抽出・要約・分析
  2. コード生成・修正機能の向上
  3. ロングダイアログシーンのロールプレイ

これらの機能は、対話型ロボットが専門化、個性化、深層化の方向に進化していることを示しており、産業の実現とスーパーAPPの登場を推進する重要な手段となることが期待されています。

長文の「不可能な三角形」のジレンマ

長文技術において、テキストの長さ、注意力、計算能力の"不可能な三角形"というジレンマが存在します。これは次のように表れます:

  1. テキストが長くなるほど、十分な注意を集めることが難しくなり、情報を完全に消化することが難しくなります。
  2. 注意力が制限されていると、短いテキストでは複雑な情報を完全に解読することができません。
  3. 長いテキストの処理には大量の計算力が必要で、コストが増加します。

このジレンマの根源は、ほとんどのモデルがTransformer構造に基づいていることにあります。この構造における自己注意メカニズムにより、計算量が文脈の長さに対して二次的に増加します。

現在、主に三つの解決策があります:

  1. モデルの外部ツールを使用して長文を処理する
  2. 自己注意メカニズム計算の最適化
  3. モデル最適化の一般的な方法

長文の「不可能三角」のジレンマは現時点では解決策が見つかっていないが、これは大規模モデルの企業が探求すべき道筋を明確にした。テキストの長さ、注意力、計算能力の三者の間で最適なバランスを見つけることで、十分な情報を処理しながら、注意力の計算と計算能力のコスト制限の両方を考慮することができる。

TOKEN-0.19%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
metaverse_hermitvip
· 9時間前
読解力が急速に進歩する
原文表示返信0
Whale_Whisperervip
· 9時間前
全文を理解するのは難しくない
原文表示返信0
SelfSovereignStevevip
· 9時間前
処理能力に驚きました。
原文表示返信0
MoonRocketmanvip
· 10時間前
読解能力が加速して向上する
原文表示返信0
HashBanditvip
· 10時間前
トークンは大きく上昇する
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)