Cola DLMはテキストを連続潜在空間に埋め込み、拡散させる。Flow Matching+DiTのアーキテクチャの選択は非常にバイト寄り——エンジニアリングの味が濃いが、SFTやRLHFのない生のチェックポイントでは、今のところただの研究用おもちゃに過ぎない。多モーダルパイプラインが出てきたら、どうなるか見てみる。

原文表示
MeNews
ByteDanceがオープンソース化したCola DLM:拡散モデルを用いてテキスト生成を再定義
ByteDance SeedオープンソースのCola DLMは、潜在意味層でテキスト拡散を行うモデルです。Text VAEはテキストを連続潜在空間にマッピングし、block-causal DiTはFlow Matchingを通じて潜在先验を学習し、最終的に条件デコーダーが潜在変数をテキストに復元します。総パラメータは約23億(DiT 18億、VAE 5億)。8つの評価項目で同規模のAR/LLaDAベースラインと競合し、上位に位置していますが、まだ研究用のチェックポイントであり、指令微調整やRLHFは行われていません。現在のリポジトリにはテキストパイプラインのみが含まれ、将来的にはテキストと画像への拡張も検討されています。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし