Nous Researchは、分かち書きの利益が純粋なバイトによる模倣で再現可能であることを確認し、分かち書き不要の大規模モデルの突破を迎えた
Nous Researchの論文によると、大規模言語モデルは将来的に分詞器への長期依存を置き換える可能性がある。1.7Bパラメータの制御されたテストでは、分詞メカニズムの利点は純粋なバイトレベルで工学的手法によって模擬できることが示された。実験は、ネイティブバイトモデルでスループットを向上させ、形態境界を注入することで、分詞モデルとのギャップを大幅に縮小できることを示している。同じ計算資源下で、圧縮模擬により単一ステップの勾配処理量を増加させることが最大の貢献源となる。また、サブワード境界を入力バイトに重ね合わせることで、未来情報を漏らさない長期的な帰納バイアスを構築した。より大きなパラメータの協調効果はまだ検証待ちだが、1.7Bでは語彙表パラメータや次のサブワード予測の利得は限定的である。これにより、分詞不要な大規模モデルの突破口が開かれ、今後のアーキテクチャはスループットの向上と、情報漏洩を防ぎつつ形態学的先验を明示的に組み込むことに焦点を当てるべきだ。
バイト単位のLLMがついに本格的な進展を遂げた、1.7Bで分かち書きの効果に近づくことができる、語彙表戦争は時代遅れになるかもしれない