ME News ニュース、5月16日(UTC+8)、動察Beatingの監測によると、字节跳动のSeedチームがCola DLMをオープンソース化しました。 これは連続潜在拡散言語モデルの一種で、大規模言語モデルがトークンを左から右へ逐次生成する固定パスを回避し、テキスト生成を高層の意味を先に組織し、その後具体的な文字に落とし込む方式に変える試みです。 Cola DLMの核心はText VAE + block-causal DiTです。 Text VAEは離散的なテキストを連続潜在空間にマッピングし、block-causal DiTはFlow Matchingを通じて潜在的な事前分布を学習します。 最後に条件付きデコーダーが潜在変数をテキストに復元します。 拡散過程は潜在的な意味表現を処理し、トークン層での反復的なノイズ除去ではありません。 今回のオープンソース版は2Bクラスのモデルで、具体的には約23億の総パラメータのうち、コアのDiTが18億パラメータ、他に5億パラメータのVAEを含みます。 LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Clozeなど8つの評価において、論文は統一された生成評価プロトコルの下で同規模のAR / LLaDAベースラインと競合するスケーリング性能を持ち、最終平均点で最良の結果を達成したと述べています。 ただし、現時点では研究用のチェックポイントであり、直接使える対話モデルではありません。 公式の説明によると、このモデルは指示微調整やRLHFを受けておらず、主な用途は連続潜在拡散がテキスト生成にどう利用できるかの研究です。 また、テキストと画像の統一モデリングへの拡張の初期実験も示されていますが、今回のオープンソースリポジトリにはテキストパイプラインのみが含まれています。 (出典:BlockBeats)
ByteDanceがCola DLMをオープンソース化:拡散モデルを用いてテキスト生成を再定義
これは連続潜在拡散言語モデルの一種で、大規模言語モデルがトークンを左から右へ逐次生成する固定パスを回避し、テキスト生成を高層の意味を先に組織し、その後具体的な文字に落とし込む方式に変える試みです。
Cola DLMの核心はText VAE + block-causal DiTです。
Text VAEは離散的なテキストを連続潜在空間にマッピングし、block-causal DiTはFlow Matchingを通じて潜在的な事前分布を学習します。
最後に条件付きデコーダーが潜在変数をテキストに復元します。
拡散過程は潜在的な意味表現を処理し、トークン層での反復的なノイズ除去ではありません。
今回のオープンソース版は2Bクラスのモデルで、具体的には約23億の総パラメータのうち、コアのDiTが18億パラメータ、他に5億パラメータのVAEを含みます。
LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Clozeなど8つの評価において、論文は統一された生成評価プロトコルの下で同規模のAR / LLaDAベースラインと競合するスケーリング性能を持ち、最終平均点で最良の結果を達成したと述べています。
ただし、現時点では研究用のチェックポイントであり、直接使える対話モデルではありません。
公式の説明によると、このモデルは指示微調整やRLHFを受けておらず、主な用途は連続潜在拡散がテキスト生成にどう利用できるかの研究です。
また、テキストと画像の統一モデリングへの拡張の初期実験も示されていますが、今回のオープンソースリポジトリにはテキストパイプラインのみが含まれています。
(出典:BlockBeats)