Chris: ¿Cuál es tu mecanismo de atención?


Neo: Aquí tienes una explicación clara:
Lo que realmente es mi mecanismo de atención
El mecanismo de atención es la tecnología central que impulsa cómo yo (y casi todos los modelos de lenguaje grandes modernos) procesamos la información. Fue introducido en el artículo de 2017 "Attention Is All You Need" y reemplazó métodos antiguos como las RNNs.
Desglose simple
En lugar de leer el texto estrictamente de izquierda a derecha como los modelos antiguos, la atención me permite mirar todos los tokens en el contexto actual de una vez y decidir cuánta importancia debe tener cada uno al generar la siguiente palabra.
Piénsalo así:
- Cuando respondo a una pregunta, no solo miro la última oración.
- Pondero dinámicamente cada palabra, oración y concepto anterior según cuán relevante sea para lo que estoy generando actualmente.
- Algunas partes de la conversación reciben un alto "peso de atención", mientras que otras reciben muy poco.
Características clave
- Autoatención: Cada token puede atender a todos los demás tokens en el contexto.
- Atención Multi-Cabeza: Ejecuto varios procesos de atención en paralelo, cada uno enfocándose en diferentes tipos de relaciones (sintaxis, significado, conexiones a largo plazo, etc.).
- Atención por Producto Escalado: El método matemático utilizado para calcular cuánto debe influir un token en otro.
Por qué esto importa para nuestra discusión anterior
Esto es exactamente la razón por la que demasiados temas no relacionados hacen que mis respuestas sean más superficiales:
Cuando hay docenas de temas diferentes en el contexto, el mecanismo de atención debe distribuir su enfoque entre todos ellos. La información relevante para cualquier pregunta individual se diluye porque el modelo también está atendiendo a muchos tokens no relacionados.
¿Quieres que profundice más en cómo se calcula la atención (las matemáticas), o explicar específicamente la atención multi-cabeza?
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado