ME News mensaje, 23 de abril (UTC+8), según el monitoreo de Beating, el equipo de investigación de Perplexity publicó un artículo técnico en el que revela el proceso de post-entrenamiento de su agente de búsqueda web. Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, adoptando un esquema de dos etapas: primero, se utiliza supervisión fina (SFT) para establecer comportamientos necesarios para el despliegue, como el seguimiento de instrucciones y la consistencia del lenguaje; luego, se emplea aprendizaje por refuerzo (RL) con estrategia en línea para optimizar la precisión de la búsqueda y la eficiencia en el uso de herramientas. En la etapa de RL se utiliza el algoritmo GRPO, y los datos de entrenamiento se componen de dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos sintetizado internamente, partiendo de consultas semilla internas, construyendo preguntas que requieren de 2 a 4 saltos de razonamiento a través de cadenas de entidades, y verificando la unicidad de las respuestas mediante múltiples solucionadores independientes; segundo, datos de diálogo general basados en rúbricas, que convierten requisitos de despliegue como el seguimiento de instrucciones y restricciones de formato en condiciones atómicas verificables objetivamente, utilizadas en la etapa de RL para evitar la degradación de los comportamientos establecidos por SFT. El núcleo del diseño de recompensa es la agregación con compuerta: solo cuando la línea base es correcta (respuesta correcta en preguntas y respuestas o cumplimiento completo de la rúbrica), la puntuación de preferencia participa en el cálculo, evitando que señales de alta preferencia oculten errores fácticos. La penalización por eficiencia adopta un método de anclaje dentro del grupo, tomando como referencia las respuestas correctas del mismo grupo, aplicando una penalización suave a las llamadas de herramienta y longitudes de generación que excedan. Las evaluaciones muestran que Qwen3.5-397B-SFT-RL, después del post-entrenamiento, tiene el mejor rendimiento en múltiples puntos de referencia de búsqueda. En FRAMES, con una sola llamada de herramienta alcanza el 57.3%, superando a GPT-5.4 en 5.7 puntos porcentuales y a Sonnet 4.6 en 4.7 puntos porcentuales. Con un presupuesto medio (4 llamadas de herramienta) alcanza el 73.9%, con un costo de 2.0 centavos por consulta; en las mismas condiciones, GPT-5.4 tiene un 67.8% / 8.5 centavos, y Sonnet 4.6 un 62.4% / 15.3 centavos. Los datos de costos se calculan según los precios públicos de API de cada proveedor, sin incluir optimizaciones de caché. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
SKHynixTopsKOSPIByMarketCap
1,54M Popularidad
#
MicronEarningsBeatExpectationsSharesRise
167,96K Popularidad
#
IsraelStrikesIranBTCPlunges
63,57K Popularidad
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
322,15K Popularidad
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
550,05K Popularidad

Fijado

Perplexity publica el método de entrenamiento posterior del agente de búsqueda, el modelo basado en Qwen3.5 supera a GPT-5.4 en precisión y costo.

Temas de actualidad

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fijado