Según la monitorización de Dongcha Beating, el equipo de investigación Perplexity ha publicado un artículo técnico detallando el proceso posterior al entrenamiento para su agente de búsqueda web. Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, empleando un enfoque de dos etapas: primero, se realiza un ajuste fino supervisado (SFT) para establecer comportamientos necesarios para su despliegue, como la adherencia a instrucciones y la coherencia en el idioma; luego, el aprendizaje por refuerzo de políticas en línea (RL) optimiza la precisión de búsqueda y la eficiencia en el uso de herramientas. La fase de RL utiliza el algoritmo GRPO, con datos de entrenamiento que consisten en dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos desarrollado internamente, que construye preguntas que requieren de 2 a 4 saltos de razonamiento a partir de consultas internas semilla y verifica la unicidad de las respuestas con múltiples solucionadores independientes; segundo, datos de diálogo general basados en criterios de puntuación (rubrica), que transforman los requisitos de despliegue, como la adherencia a instrucciones y las restricciones de formato, en condiciones atómicas verificables objetivamente para evitar la degradación de los comportamientos establecidos durante SFT en la fase de RL. El núcleo del diseño de la recompensa es la agregación controlada: las puntuaciones de preferencia solo se consideran en los cálculos cuando la línea base es correcta (es decir, la pregunta y respuesta son correctas o se cumplen todos los criterios de puntuación), evitando que señales de alta preferencia enmascaren errores fácticos. Se aplican penalizaciones de eficiencia mediante un método de anclaje intra-grupo, donde las respuestas correctas en el mismo grupo sirven como línea base para imponer penalizaciones suaves sobre conteos excesivos de invocaciones de herramientas y longitudes de generación. La evaluación muestra que el Qwen3.5-397B-SFT-RL entrenado posteriormente funciona de manera óptima en múltiples benchmarks de búsqueda. En FRAMES, una sola invocación de herramienta alcanza un 57,3%, superando a GPT-5.4 en 5,7 puntos porcentuales y a Sonnet 4.6 en 4,7 puntos porcentuales. Bajo un presupuesto medio (4 invocaciones de herramientas), alcanza un 73,9%, con un coste de 2,0 centavos por consulta; en las mismas condiciones, GPT-5.4 logra un 67,8% a 8,5 centavos, y Sonnet 4.6 alcanza un 62,4% a 15,3 centavos. Los datos de coste se calculan en base a los precios de API disponibles públicamente de cada proveedor, excluyendo la optimización de caché.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
340.1K Popularidad
#
CryptoMarketsDipSlightly
244.72K Popularidad
#
IsraelStrikesIranBTCPlunges
35.53K Popularidad
#
#DailyPolymarketHotspot
683.59K Popularidad
#
StrategyAccumulates2xMiningRate
139.46M Popularidad

Anclado

Perplexity revela método posterior al entrenamiento para el agente de búsqueda, el modelo Qwen3.5 supera a GPT-5.4 en precisión y costo

Temas de actualidad

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Anclado