Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
¿Por qué los grandes modelos no pueden generar 「马嘉祺」? La exploración de la lista completa de tokens de MiniMax revela que cerca del 5% de los tokens se olvidaron durante el entrenamiento posterior.
Según la monitorización de Beating, MiniMax publicó un blog técnico, revelando el proceso de investigación de la causa raíz por la cual su modelo grande de la serie M2 no puede generar el nombre “马嘉祺”. La investigación comenzó con un caso específico y finalmente reveló un problema de degradación sistémica que afecta a toda la lista de vocabulario.
La causa raíz es que el tokenizador (el componente que divide el texto en unidades que el modelo procesa) fusionó “嘉祺” en un token independiente durante el entrenamiento.
En la fase de preentrenamiento, el modelo vio una gran cantidad de textos de internet y aprendió este token; pero en los datos de diálogo posteriores, había menos de 5 muestras que contenían “嘉祺”.
Durante el entrenamiento posterior, los tokens de alta frecuencia como las marcas de tool_call, símbolos de código, etc., actualizaron continuamente los vectores en su entorno, desplazando tokens de baja frecuencia como “嘉祺” en la dirección equivocada.
El modelo todavía “reconoce” a 马嘉祺 y puede responder con precisión a información relacionada, pero la capacidad de generar ese token se perdió.
Luego, el equipo realizó un escaneo completo de aproximadamente 200,000 tokens en la lista de vocabulario, y encontró que aproximadamente el 4.9% de los tokens habían sufrido una degradación significativa.
La degradación más severa fue en japonés: el 29.7% de los tokens en japonés mostraron una degradación notable, mucho más que el 3.3% en coreano, 3.7% en ruso, 3.9% en chino y 3.5% en inglés.
Entre los tokens con mayor degradación también estaban palabras basura de SEO en internet como “传奇私服” y “无痛人流”, que tienen mecanismos similares a “嘉祺”.
La grave degradación en japonés también resolvió un antiguo misterio. Antes, el modelo ocasionalmente mezclaba caracteres en ruso o coreano en diálogos en japonés, sin poder encontrar la causa.
Este análisis mostró que, tras la deriva de los parámetros de los tokens en japonés, estos se confundieron con los tokens de otros idiomas en el espacio vectorial, lo que provocó tanto la activación incorrecta de tokens en japonés (mezcla de idiomas) como la expulsión de tokens chinos de baja frecuencia de su rango de probabilidad normal (olvido de tokens).
La solución fue construir un conjunto de datos sintéticos que cubriera toda la lista de vocabulario, permitiendo que el modelo entrenara con tareas simples de repetición para que cada token fuera aprendido.
El efecto fue inmediato: la proporción de respuestas en japonés que mezclaban caracteres en ruso bajó del 47% al 1%, y la estabilidad del parámetro de salida en toda la lista de vocabulario (similitud coseno) subió desde un mínimo de 0.329 a valores superiores a 0.97 en todos los casos.