Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Blog de Gate
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 30 modelos de IA, con 0% de costos adicionales
Perplexity revela método posterior al entrenamiento para el agente de búsqueda, el modelo Qwen3.5 supera a GPT-5.4 en precisión y costo
Según la monitorización de Dongcha Beating, el equipo de investigación Perplexity ha publicado un artículo técnico detallando el proceso posterior al entrenamiento para su agente de búsqueda web. Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, empleando un enfoque de dos etapas: primero, se realiza un ajuste fino supervisado (SFT) para establecer comportamientos necesarios para su despliegue, como la adherencia a instrucciones y la coherencia en el idioma; luego, el aprendizaje por refuerzo de políticas en línea (RL) optimiza la precisión de búsqueda y la eficiencia en el uso de herramientas. La fase de RL utiliza el algoritmo GRPO, con datos de entrenamiento que consisten en dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos desarrollado internamente, que construye preguntas que requieren de 2 a 4 saltos de razonamiento a partir de consultas internas semilla y verifica la unicidad de las respuestas con múltiples solucionadores independientes; segundo, datos de diálogo general basados en criterios de puntuación (rubrica), que transforman los requisitos de despliegue, como la adherencia a instrucciones y las restricciones de formato, en condiciones atómicas verificables objetivamente para evitar la degradación de los comportamientos establecidos durante SFT en la fase de RL. El núcleo del diseño de la recompensa es la agregación controlada: las puntuaciones de preferencia solo se consideran en los cálculos cuando la línea base es correcta (es decir, la pregunta y respuesta son correctas o se cumplen todos los criterios de puntuación), evitando que señales de alta preferencia enmascaren errores fácticos. Se aplican penalizaciones de eficiencia mediante un método de anclaje intra-grupo, donde las respuestas correctas en el mismo grupo sirven como línea base para imponer penalizaciones suaves sobre conteos excesivos de invocaciones de herramientas y longitudes de generación. La evaluación muestra que el Qwen3.5-397B-SFT-RL entrenado posteriormente funciona de manera óptima en múltiples benchmarks de búsqueda. En FRAMES, una sola invocación de herramienta alcanza un 57,3%, superando a GPT-5.4 en 5,7 puntos porcentuales y a Sonnet 4.6 en 4,7 puntos porcentuales. Bajo un presupuesto medio (4 invocaciones de herramientas), alcanza un 73,9%, con un coste de 2,0 centavos por consulta; en las mismas condiciones, GPT-5.4 logra un 67,8% a 8,5 centavos, y Sonnet 4.6 alcanza un 62,4% a 15,3 centavos. Los datos de coste se calculan en base a los precios de API disponibles públicamente de cada proveedor, excluyendo la optimización de caché.