Проблемы с моделями LLM на уровне байтов наконец-то получили серьезное развитие, 1,7 миллиарда могут приблизиться к эффекту сегментации слов, война за словари, возможно, устареет

Посмотреть Оригинал
CoinNetwork
Nous Research подтверждает, что преимущества сегментации могут быть полностью имитированы чистыми байтами, и модели без сегментации достигнут прорыва
Nous Research的论文称,大语言模型对分词器的长期依赖未来有望被替代。
1.7B参数的受控测试显示,分词机制的收益可在纯字节层面通过工程手段模拟。
实验表明,在原生字节模型中提升吞吐并注入形态边界,能显著缩小与分词模型的差距;
同等算力下,模拟压缩提升单步梯度处理量,成为最大贡献来源。
同时将子词边界叠加到输入字节上,建立了不泄露未来信息的长效归纳偏置。
虽更大参数协同效应尚待验证,但在1.7B下,词表参数与预测下一个子词等收益有限。
这为免分词大模型提供破局思路,未来架构应聚焦提升吞吐并以不泄露的方式显式融入形态学先验。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено