Perplexity revela el método de entrenamiento del Agente de búsqueda, el modelo basado en Qwen3.5 supera a GPT-5.4 en precisión y costo.

robot
Generación de resúmenes en curso
ME News: El 23 de abril (UTC+8), según el monitoreo de Dongcha Beating, el equipo de investigación de Perplexity publicó un artículo técnico, revelando el proceso de post-entrenamiento de su agente de búsqueda web.
Este flujo se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, adoptando un esquema de dos etapas: primero, se utiliza el ajuste fino supervisado (SFT) para establecer comportamientos necesarios para el despliegue, como el seguimiento de instrucciones y la consistencia lingüística; luego, se utiliza el aprendizaje por refuerzo en línea (RL) para optimizar la precisión de búsqueda y la eficiencia en el uso de herramientas.
La fase de RL utiliza el algoritmo GRPO, y los datos de entrenamiento constan de dos partes: una es un conjunto de datos de preguntas y respuestas multietapa sintetizado internamente, que parte de consultas semilla internas y construye preguntas que requieren de 2 a 4 pasos de razonamiento a través de cadenas de entidades, verificando la unicidad de las respuestas con múltiples solucionadores independientes; la otra son datos de diálogo general basados en una rúbrica, que convierten los requisitos de despliegue como el seguimiento de instrucciones y restricciones de formato en condiciones atómicas objetivamente comprobables, para evitar la degradación del comportamiento establecido por SFT durante la fase de RL.
El núcleo del diseño de recompensas es la agregación con compuerta: solo cuando la línea base es correcta (respuesta correcta en la pregunta o cumplimiento total de la rúbrica), la puntuación de preferencia participa en el cálculo, evitando que las señales de alta preferencia oculten errores fácticos. La penalización por eficiencia adopta un anclaje dentro del grupo, tomando como referencia las respuestas correctas del mismo grupo, y aplicando una penalización suave al exceso de llamadas a herramientas y la longitud de generación.
Las evaluaciones muestran que el Qwen3.5-397B-SFT-RL post-entrenado tiene el mejor rendimiento en múltiples puntos de referencia de búsqueda. En FRAMES, con una sola llamada a herramienta alcanza el 57.3%, 5.7 puntos porcentuales más que GPT-5.4 y 4.7 puntos porcentuales más que Sonnet 4.6. Con un presupuesto medio (4 llamadas a herramientas) alcanza el 73.9%, con un costo de 2.0 centavos de dólar por consulta; bajo las mismas condiciones, GPT-5.4 es 67.8% / 8.5 centavos, y Sonnet 4.6 es 62.4% / 15.3 centavos. Los datos de costo se calculan según los precios de API públicos de cada proveedor, sin incluir optimizaciones de caché.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios