El LLM a nivel de byte finalmente ha tenido avances serios, con 1.7B puede acercarse a los efectos de segmentación de palabras, la guerra de vocabularios podría quedar obsoleta.

Ver original
CoinNetwork
Nous Research confirma que los beneficios de la segmentación pueden ser simulados completamente por ByteDance, y los grandes modelos sin segmentación están a punto de lograr un avance
Las investigaciones de Nous Research afirman que la dependencia a largo plazo de los modelos de lenguaje grande en los tokenizadores podría ser reemplazada en el futuro.
Las pruebas controladas con 1.7 mil millones de parámetros muestran que los beneficios del mecanismo de tokenización pueden ser simulados a nivel de bytes puros mediante técnicas de ingeniería.
Los experimentos indican que, en modelos nativos de bytes, aumentar el rendimiento y agregar límites morfológicos puede reducir significativamente la brecha con los modelos de tokenización;
bajo la misma potencia de cálculo, la simulación de compresión mejora la cantidad de gradientes procesados por paso, convirtiéndose en la mayor fuente de contribución.
Al superponer límites de subpalabras en los bytes de entrada, se establece un sesgo de inducción a largo plazo que no revela información futura.
Aunque el efecto de colaboración de parámetros aún debe ser verificado, en 1.7 mil millones, los beneficios de los parámetros del vocabulario y la predicción del siguiente subpalabra son limitados.
Esto ofrece una vía para modelos grandes sin tokenización, y en el futuro, la arquitectura debería centrarse en mejorar el rendimiento y en integrar explícitamente el conocimiento morfológico de manera que no revele información futura.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado