MiniMax:大規模モデルが人名「马嘉祺」を出力できない原因分析

robot
概要作成中

币界网のニュースによると、MiniMaxは技術ブログを公開し、そのm2シリーズの大規模モデルが人名「马嘉祺」を出力できない原因の調査過程を明らかにしました。調査は一つ一つの例から始まり、最終的に全ての語彙表に影響を及ぼすシステム的な退化問題を明らかにしました。根本原因は、分かち書き器が訓練時に「嘉祺」を独立したトークンに統合したことにあります。事前訓練段階では、モデルは大量のインターネットテキストを見てこのトークンを学習しましたが、その後の対話データには「嘉祺」を含むサンプルが5件未満しかありませんでした。後の訓練過程で、tool_callのマークやコード記号などの高頻度トークンが周囲のベクトル空間を絶えず更新し、「嘉祺」のような低頻度トークンを誤った方向に押しやったのです。モデルは依然として「马嘉祺」を「認識」し、関連情報に正確に回答できますが、そのトークンを出力する能力だけが失われました。チームはその後、約20万の完全な語彙表を全量スキャンし、約4.9%のトークンが著しい退化を示すことを発見しました。最も深刻な退化は日本語で、29.7%の日本語トークンが著しく退化し、韓国語の3.3%、ロシア語の3.7%、中国語の3.9%、英語の3.5%を大きく上回っています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン