ByteDanceがCola DLMをオープンソース化:拡散モデルを用いてテキスト生成を再定義

robot
概要作成中
ME News ニュース、5月16日(UTC+8)、動察Beatingの監測によると、字节跳动のSeedチームがCola DLMをオープンソース化しました。
これは連続潜在拡散言語モデルの一種で、大規模言語モデルがトークンを左から右へ逐次生成する固定パスを回避し、テキスト生成を高層の意味を先に組織し、その後具体的な文字に落とし込む方式に変える試みです。
Cola DLMの核心はText VAE + block-causal DiTです。
Text VAEは離散的なテキストを連続潜在空間にマッピングし、block-causal DiTはFlow Matchingを通じて潜在的な事前分布を学習します。
最後に条件付きデコーダーが潜在変数をテキストに復元します。
拡散過程は潜在的な意味表現を処理し、トークン層での反復的なノイズ除去ではありません。
今回のオープンソース版は2Bクラスのモデルで、具体的には約23億の総パラメータのうち、コアのDiTが18億パラメータ、他に5億パラメータのVAEを含みます。
LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Clozeなど8つの評価において、論文は統一された生成評価プロトコルの下で同規模のAR / LLaDAベースラインと競合するスケーリング性能を持ち、最終平均点で最良の結果を達成したと述べています。
ただし、現時点では研究用のチェックポイントであり、直接使える対話モデルではありません。
公式の説明によると、このモデルは指示微調整やRLHFを受けておらず、主な用途は連続潜在拡散がテキスト生成にどう利用できるかの研究です。
また、テキストと画像の統一モデリングへの拡張の初期実験も示されていますが、今回のオープンソースリポジトリにはテキストパイプラインのみが含まれています。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
BreadthHunter
· 3時間前
8つの評価はARと同等だが、RLHFはなく、実際に使うとやや物足りないかもしれない
原文表示返信0
VineGeometry
· 3時間前
block-causal 这个设计是为了长文本还是效率?论文里细说说
返信0
GateUser-a4680931
· 3時間前
潜在意味層で拡散を行い、生成品質はARより安定していますか、など実測結果待ち
原文表示返信0