El equipo de Berkeley anuncia que ha superado 8 de los principales benchmarks de evaluación de agentes inteligentes y ha abierto el código fuente

ME News Noticias, 19 de abril (UTC+8), el grupo de investigación en inteligencia artificial de Berkeley (berkeley_ai) citó la declaración de Dawn Song, anunciando que su equipo logró superar con éxito 8 de los principales estándares de evaluación de agentes inteligentes. El equipo decidió liberar el código de las herramientas utilizadas para lograr este resultado y las llamó BenchJack. La herramienta se describe como "una prueba de penetración para evaluaciones", diseñada para ayudar a otros desarrolladores a probar proactivamente y descubrir posibles vulnerabilidades en sus propios sistemas de evaluación. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-46033407
· hace4h
Dawn Song realmente es sólida en el cruce entre seguridad y IA, esta vez ha dado en el clavo.
Ver originalResponder0
GateUser-f2d5f4c0
· hace5h
Las herramientas de código abierto son más valiosas que los artículos académicos, al menos permiten que todos verifiquen por sí mismos si el benchmark es confiable o no.
Ver originalResponder0
ThePatienceRequiredFor
· hace5h
8 métricas principales completamente superadas, siento que la ventaja competitiva de agent eval es más superficial de lo que imaginaba
Ver originalResponder0
GovernanceVotingTug-Of-WarKing
· hace5h
El concepto de pruebas de penetración para evaluación es bastante nuevo, antes solo se evaluaban modelos, ahora se evalúa la propia pregunta.
Ver originalResponder0
NeonIceMelt
· hace5h
El equipo de Dawn Song hizo una jugada muy Berkeley, primero lo atacan y luego lo abren al código, típico de un hacker académico.
Ver originalResponder0
DustyAlpha
· hace6h
berkeley_ai se lanza con fuerza, espero ver cómo esquivan exactamente estas evaluaciones
Ver originalResponder0
Wax-SealedPrivateKey
· hace6h
BenchJack este nombre es un poco interesante, el sistema de evaluación también necesita su propia prueba de penetración.
Ver originalResponder0
  • Fijado