ME News ニュース、5月14日(UTC+8)、動察Beatingの監視によると、Nous Researchは大規模モデルの事前学習新方案であるトークン重畳訓練(TST)を発表した。この方案は、訓練前期に隣接するトークンをパッケージ化して圧縮することで、同じ計算量で事前学習時間を2倍から3倍短縮できる。 TSTは二つの段階を含む。前の20%から40%の訓練中に、モデルはもはや一つ一つトークンを読み取らず、隣接するトークンを「パッケージ化」して平均値を入力し、出力側で次のパッケージに含まれるトークン(内部の順序は考慮しない)を予測する。その後、モデルは通常の次トークン予測に戻る。基盤のアーキテクチャを変更しないため、生成されるモデルは推論時に従来のモデルと完全に同じである。この方法は、最大100億パラメータのMoEモデルで検証済みだ。この方案の本質は「データを計算力に換算する」ことであり、より速いコーパス消費速度で計算時間を短縮することを目的としている。将来的に高品質なテキストが枯渇した場合、そのデータ加速消費の特性は短所となる可能性がある。さらに、論文公開数時間後に、読者からTSTの仕組みが2024年に公開された旧作『Beyond Next Token Prediction』と非常に類似しているとの指摘があった。著者チームはその後、Hugging Faceで「不幸な収束研究(convergent research)」であると認め、論文の引用を追記することを約束した。(出典:BlockBeats)
事前学習の高速化は2倍から3倍、Nousの新しいTST方案は「衝突」論争に巻き込まれる
ME News ニュース、5月14日(UTC+8)、動察Beatingの監視によると、Nous Researchは大規模モデルの事前学習新方案であるトークン重畳訓練(TST)を発表した。この方案は、訓練前期に隣接するトークンをパッケージ化して圧縮することで、同じ計算量で事前学習時間を2倍から3倍短縮できる。 TSTは二つの段階を含む。前の20%から40%の訓練中に、モデルはもはや一つ一つトークンを読み取らず、隣接するトークンを「パッケージ化」して平均値を入力し、出力側で次のパッケージに含まれるトークン(内部の順序は考慮しない)を予測する。その後、モデルは通常の次トークン予測に戻る。基盤のアーキテクチャを変更しないため、生成されるモデルは推論時に従来のモデルと完全に同じである。この方法は、最大100億パラメータのMoEモデルで検証済みだ。この方案の本質は「データを計算力に換算する」ことであり、より速いコーパス消費速度で計算時間を短縮することを目的としている。将来的に高品質なテキストが枯渇した場合、そのデータ加速消費の特性は短所となる可能性がある。さらに、論文公開数時間後に、読者からTSTの仕組みが2024年に公開された旧作『Beyond Next Token Prediction』と非常に類似しているとの指摘があった。著者チームはその後、Hugging Faceで「不幸な収束研究(convergent research)」であると認め、論文の引用を追記することを約束した。(出典:BlockBeats)