Usar el algoritmo de KPI trimestral para perseguir a Copérnico, realmente es un poco difícil para la gente.

Ver original
MeNews
RLVR podría ser especialmente malo en el campo científico
ME News Noticias, 17 de mayo (UTC+8), RLVR (Aprendizaje por Refuerzo y Verificación) puede mostrar defectos desproporcionados en la verificación de teorías científicas.
El ciclo de verificación de teorías científicas puede durar décadas o incluso siglos, y las teorías consideradas más óptimas en la actualidad a menudo hacen predicciones peores.
Esta contradicción revela un conflicto fundamental entre el paradigma de aprendizaje por refuerzo basado en retroalimentación a corto plazo y la naturaleza a largo plazo y complejidad de la exploración científica, destacando las limitaciones estructurales de los métodos de IA existentes para tareas con ciclos de retroalimentación extremadamente largos, como el descubrimiento científico.
(Fuente: AiHot)
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado