Perplexity publica el método de entrenamiento posterior del Agente de búsqueda, el modelo basado en Qwen3.5 supera a GPT-5.4 en precisión y costo.

robot
Generación de resúmenes en curso
ME News mensaje, 23 de abril (UTC+8), según el monitoreo de Dongcha Beating, el equipo de investigación de Perplexity publicó un artículo técnico, revelando el proceso de post-entrenamiento de su agente de búsqueda web.
Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, adoptando un esquema de dos etapas: primero se utiliza el ajuste fino supervisado (SFT) para establecer comportamientos necesarios para el despliegue, como el seguimiento de instrucciones y la coherencia del lenguaje, y luego se utiliza el aprendizaje por refuerzo en línea (RL) para optimizar la precisión de búsqueda y la eficiencia en el uso de herramientas.
La etapa de RL utiliza el algoritmo GRPO, y los datos de entrenamiento constan de dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos sintetizado internamente, que parte de consultas semilla internas, construye preguntas que requieren de 2 a 4 saltos de razonamiento a través de cadenas de entidades, y verifica la unicidad de las respuestas mediante múltiples solucionadores independientes; segundo, datos de diálogo general basados en rúbricas, que convierten los requisitos de despliegue como el seguimiento de instrucciones y las restricciones de formato en condiciones atómicas objetivamente verificables, utilizadas para evitar la degradación del comportamiento establecido por SFT durante la etapa de RL.
El núcleo del diseño de recompensas es la agregación con compuerta: solo cuando la línea base es correcta (respuesta correcta en QA o cumplimiento total de la rúbrica), la puntuación de preferencia participa en el cálculo, evitando que las señales de alta preferencia oculten errores fácticos. La penalización por eficiencia adopta un método de anclaje intragrupo, tomando como referencia las respuestas correctas del mismo grupo, y aplica una penalización suave por el exceso de llamadas a herramientas y la longitud de generación.
Las evaluaciones muestran que el Qwen3.5-397B-SFT-RL post-entrenado logra el mejor rendimiento en múltiples puntos de referencia de búsqueda. En FRAMES, con una sola llamada a herramienta alcanza el 57.3%, 5.7 puntos porcentuales más que GPT-5.4 y 4.7 puntos porcentuales más que Sonnet 4.6. Con presupuesto medio (4 llamadas a herramienta) alcanza el 73.9%, con un costo de 2.0 centavos por consulta; bajo las mismas condiciones, GPT-5.4 obtiene 67.8% / 8.5 centavos, y Sonnet 4.6 obtiene 62.4% / 15.3 centavos. Los costos se calculan según los precios de API públicos de cada fabricante, sin incluir optimización de caché.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios