Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T de parámetros, 384 expertos activados en 6
Según el monitoreo de Beating, el doctorando de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Él anunció el 19 de abril que “V4 estará la próxima semana” y enumeró los nombres de tres componentes de la arquitectura, esta noche proporcionó la tabla completa de parámetros, y además reveló por primera vez la existencia de una versión ligera V4-Lite con 285 mil millones de parámetros.
El total de parámetros de V4 es de 1.6 billones. La mecanismo de atención es DSA2, que combina las dos soluciones de atención dispersa utilizadas previamente en DeepSeek en V3.2, DSA (DeepSeek Sparse Attention) y NSA (Native Sparse Attention) propuesta en un artículo a principios de este año, con head-dim de 512, junto con Sparse MQA y SWA (atención de ventana deslizante). La capa MoE cuenta con 384 expertos, activándose 6 a la vez, usando Fused MoE Mega-Kernel. La conexión residual sigue el método Hyper-Connections.
Los detalles revelados por primera vez en la fase de entrenamiento incluyen: el optimizador usado es Muon (un optimizador matricial que aplica la ortogonalización de Newton-Schulz en la actualización de momentum), la longitud del contexto de preentrenamiento es de 32K, y en la fase de aprendizaje reforzado se usa GRPO con corrección de divergencia KL. La longitud del contexto final se amplió a 1 millón. La modalidad es solo texto.
Zhang no ocupa un cargo en DeepSeek, y la compañía no ha respondido a la información anterior.