Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Acciones surcoreanas
SK Hynix
Opera con acciones surcoreanas reales e invierte en activos populares
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gate Wealth
Toma el control del futuro financiero
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 8% TAE
Sin bloqueo, opera y retira.
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
Perplexity publica el método de entrenamiento posterior del Agente de búsqueda, el modelo basado en Qwen3.5 supera a GPT-5.4 en precisión y costo.
Este proceso se basa en los modelos de código abierto Qwen3.5-122B-A10B y Qwen3.5-397B-A17B, adoptando un esquema de dos etapas: primero se utiliza el ajuste fino supervisado (SFT) para establecer comportamientos necesarios para el despliegue, como el seguimiento de instrucciones y la coherencia del lenguaje, y luego se utiliza el aprendizaje por refuerzo en línea (RL) para optimizar la precisión de búsqueda y la eficiencia en el uso de herramientas.
La etapa de RL utiliza el algoritmo GRPO, y los datos de entrenamiento constan de dos partes: primero, un conjunto de datos de preguntas y respuestas verificables de múltiples saltos sintetizado internamente, que parte de consultas semilla internas, construye preguntas que requieren de 2 a 4 saltos de razonamiento a través de cadenas de entidades, y verifica la unicidad de las respuestas mediante múltiples solucionadores independientes; segundo, datos de diálogo general basados en rúbricas, que convierten los requisitos de despliegue como el seguimiento de instrucciones y las restricciones de formato en condiciones atómicas objetivamente verificables, utilizadas para evitar la degradación del comportamiento establecido por SFT durante la etapa de RL.
El núcleo del diseño de recompensas es la agregación con compuerta: solo cuando la línea base es correcta (respuesta correcta en QA o cumplimiento total de la rúbrica), la puntuación de preferencia participa en el cálculo, evitando que las señales de alta preferencia oculten errores fácticos. La penalización por eficiencia adopta un método de anclaje intragrupo, tomando como referencia las respuestas correctas del mismo grupo, y aplica una penalización suave por el exceso de llamadas a herramientas y la longitud de generación.
Las evaluaciones muestran que el Qwen3.5-397B-SFT-RL post-entrenado logra el mejor rendimiento en múltiples puntos de referencia de búsqueda. En FRAMES, con una sola llamada a herramienta alcanza el 57.3%, 5.7 puntos porcentuales más que GPT-5.4 y 4.7 puntos porcentuales más que Sonnet 4.6. Con presupuesto medio (4 llamadas a herramienta) alcanza el 73.9%, con un costo de 2.0 centavos por consulta; bajo las mismas condiciones, GPT-5.4 obtiene 67.8% / 8.5 centavos, y Sonnet 4.6 obtiene 62.4% / 15.3 centavos. Los costos se calculan según los precios de API públicos de cada fabricante, sin incluir optimización de caché.
(Fuente: BlockBeats)