Perplexity publica el método de entrenamiento posterior del agente de búsqueda, el modelo basado en Qwen3.5 supera a GPT-5.4 en precisión y costo.

robot
Generación de resúmenes en curso
ME News mensaje, 23 de abril (UTC+8), según el monitoreo de Beating, el equipo de investigación de Perplexity publicó un artículo técnico en el que revela el proceso de post-entrenamiento de su agente de búsqueda web. Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, adoptando un esquema de dos etapas: primero, se utiliza supervisión fina (SFT) para establecer comportamientos necesarios para el despliegue, como el seguimiento de instrucciones y la consistencia del lenguaje; luego, se emplea aprendizaje por refuerzo (RL) con estrategia en línea para optimizar la precisión de la búsqueda y la eficiencia en el uso de herramientas. En la etapa de RL se utiliza el algoritmo GRPO, y los datos de entrenamiento se componen de dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos sintetizado internamente, partiendo de consultas semilla internas, construyendo preguntas que requieren de 2 a 4 saltos de razonamiento a través de cadenas de entidades, y verificando la unicidad de las respuestas mediante múltiples solucionadores independientes; segundo, datos de diálogo general basados en rúbricas, que convierten requisitos de despliegue como el seguimiento de instrucciones y restricciones de formato en condiciones atómicas verificables objetivamente, utilizadas en la etapa de RL para evitar la degradación de los comportamientos establecidos por SFT. El núcleo del diseño de recompensa es la agregación con compuerta: solo cuando la línea base es correcta (respuesta correcta en preguntas y respuestas o cumplimiento completo de la rúbrica), la puntuación de preferencia participa en el cálculo, evitando que señales de alta preferencia oculten errores fácticos. La penalización por eficiencia adopta un método de anclaje dentro del grupo, tomando como referencia las respuestas correctas del mismo grupo, aplicando una penalización suave a las llamadas de herramienta y longitudes de generación que excedan. Las evaluaciones muestran que Qwen3.5-397B-SFT-RL, después del post-entrenamiento, tiene el mejor rendimiento en múltiples puntos de referencia de búsqueda. En FRAMES, con una sola llamada de herramienta alcanza el 57.3%, superando a GPT-5.4 en 5.7 puntos porcentuales y a Sonnet 4.6 en 4.7 puntos porcentuales. Con un presupuesto medio (4 llamadas de herramienta) alcanza el 73.9%, con un costo de 2.0 centavos por consulta; en las mismas condiciones, GPT-5.4 tiene un 67.8% / 8.5 centavos, y Sonnet 4.6 un 62.4% / 15.3 centavos. Los datos de costos se calculan según los precios públicos de API de cada proveedor, sin incluir optimizaciones de caché. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios