Código puro enfrentando a la red neuronal! El modelo grande con reglas de control escritas a mano invade la industria dura, estrategia completa ejecutada por 14 dólares

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 19 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el miembro clave de entrenamiento posterior de OpenAI, Wang Jiayi, acaba de demostrar que "con modelos grandes puramente para programar, se puede pasar de nivel en juegos de Atari", y el investigador Paul Garnier trasladó este método a un control más riguroso de la dinámica de fluidos. Él no entrenó ninguna red neuronal en todo el proceso. Simplemente dejó que Codex 5.5 actuara como programador, revisando repetidamente grabaciones de simulaciones de fluidos y reescribiendo scripts en Python. Solo con estas reglas de control hechas a mano, la IA logró superar en más de la mitad de los escenarios a los baselines de aprendizaje por refuerzo (DRL) de vanguardia en más de diez pruebas físicas. Para reducir la resistencia de los autos y calmar la turbulencia en las tuberías, la industria antes solo podía depender de aumentar la potencia de cálculo y alimentar un modelo de caja negra incomprensible para controlar las válvulas de flujo de aire. Codex evitó este callejón sin salida. Las reglas que generó son extremadamente directas, como "cuando la curvatura local sea demasiado grande, retrasar la inyección de chorro". Decenas de líneas de código con conocimientos físicos reemplazaron directamente la prueba y error ciega de las redes neuronales. Convertir la caja negra en código eliminó los puntos débiles de la rigidez de las redes neuronales, que se rompen al primer contacto. Antes, solo con un pequeño cambio en el hardware (como cambiar de 5 a 10 boquillas de control), el modelo antiguo se volvía obsoleto y había que volver a entrenar, gastando dinero. Ahora, solo con modificar una constante en el código, el sistema puede adaptarse instantáneamente a nuevos dispositivos. Cuando se extendió el tiempo de prueba por cuatro veces, los modelos DRL tradicionales que salieron de la zona de experiencia colapsaron por completo; pero el código generado por el gran modelo, que sigue directamente la lógica física, siempre funciona de manera estable. Para implementar toda esta estrategia de control, el gran modelo solo consumió 21.25 millones de tokens, con un costo total de menos de 14 dólares. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado