Esta hoja proviene de Stanford y Harvard, y es la razón por la cual la mayoría de los sistemas de "inteligencia artificial agente" sienten admiración en las presentaciones y luego se deterioran completamente en el uso real.


Se llama "Ajuste de la inteligencia artificial agente" y es el documento más importante que he leído este año.
Actualmente, todos están obsesionados con construir agentes independientes. Les damos herramientas, memoria y un objetivo, y esperamos que realicen nuestras tareas.
Pero al desplegarlos en el mundo real, se confunden con las llamadas a las herramientas. Fallan en planificar a largo plazo. Se bloquean.
Aquí está la razón:
Intentamos comprimir todo el aprendizaje en el cerebro de la inteligencia artificial.
Cuando los desarrolladores intentan arreglar un agente que no funciona, generalmente solo ajustan el modelo principal para producir respuestas finales mejores.
Los investigadores descubrieron un defecto mortal en este enfoque.
Si solo recompensas a la IA por obtener la respuesta final correcta, se vuelve perezosa.
Literalmente aprende a dejar de usar sus herramientas. Intenta adivinar la respuesta en lugar de hacer el trabajo. Ignora la calculadora y trata de hacer los cálculos en su cabeza.
Para solucionar esto, los investigadores propusieron un nuevo marco de trabajo compuesto por 4 partes sobre cómo aprenden realmente los agentes.
Y la conclusión más importante invierte completamente el concepto actual.
En lugar de volver a entrenar continuamente el cerebro grande y costoso del agente, los sistemas más confiables hacen lo contrario.
Congelan el cerebro. Y ajustan las herramientas.
Lo llaman ajuste de herramientas bajo la supervisión del agente. #GateSquareAprilPostingChallenge $BTC
BTC0,33%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado