El mayor lanzamiento de código abierto en Europa: Sber lanza una línea de redes neuronales rusas de vanguardia

2026-04-06 16:56:49

(MENAFN) Sber abre los pesos de dos nuevos modelos MoE insignia en la serie GigaChat — Ultra Preview y Lightning — entrenados desde cero para tareas en idioma ruso, junto con la próxima generación de modelos abiertos de reconocimiento automático del habla GigaAM-v3 con conocimiento sobre puntuación y normalización.

	Además, todos los modelos de generación de imágenes y videos de la familia más reciente Kandinsky 5.0 — **Video Pro, Video Lite e Image Lite** — ya están disponibles públicamente. Estos modelos avanzados ofrecen comprensión nativa de prompts en ruso, incorporan conocimientos específicos para el contexto cultural ruso y generan con solidez texto cirílico tanto en imágenes como en videos. Además, se han lanzado los modelos K-VAE 1.0 para codificación y decodificación de contenido visual — críticos para entrenar redes neuronales de generación visual y, entre los mejores modelos de código abierto a nivel mundial —. El código y los pesos de todos estos modelos se distribuyen bajo la licencia MIT, lo que permite su uso comercial.





	**_Andrey Belevtsev, Vicepresidente Senior, Jefe de Tecnología & Al, Sberbank:_**



	_“Creemos que crear inteligencia artificial de clase mundial requiere dos cosas: recursos masivos y equipos de I+D de clase mundial. Sber tiene ambas. Pero lo que más importa es compartir, no encerrar la tecnología. Nuestra estrategia es convertirnos en una base abierta para la innovación a nivel nacional. Por eso estamos lanzando los pesos del modelo. Este es un momento decisivo. Cualquier empresa en Rusia, ya sea un banco o una startup, puede instalar estos modelos dentro de sus sistemas cerrados, ajustarlos con datos internos sensibles y conservar el control total sobre su información confidencial. Este enfoque refleja una verdadera soberanía tecnológica: la IA pertenece a toda la nación, impulsando transformaciones empresariales y crecimiento económico. También me gustaría señalar que Ultra estará disponible pronto para clientes corporativos, con un costo de propiedad optimizado para despliegues corporativos internos.”_



	**GigaChat Ultra y GigaChat Lightning **GigaChat se expande con la incorporación de GigaChat Ultra Preview y GigaChat Lightning. GigaChat Ultra Preview se destaca como el modelo más grande y poderoso de la gama GigaChat. El primer modelo de esta escala en Rusia, aunque todavía en entrenamiento, ya supera puntos de referencia internacionales como DeepSeek V3.1 en métricas generales de calidad para el desempeño en ruso, ocupando el primer lugar en el benchmark MERA. A pesar de su tamaño, mantiene una velocidad impresionante; actualmente es más rápido que GigaChat 2 Max, el modelo insignia anterior.



	Como estamos poniendo GigaChat Ultra Preview a disposición de forma gratuita, los desarrolladores obtienen la capacidad de ajustar finamente el modelo sin conexión. Por ejemplo, dentro de entornos corporativos seguros donde los controles estrictos de privacidad de datos y la calidad de los datos son críticos.



	Se hermano, GigaChat Lightning, ofrece el equilibrio opuesto: tamaño compacto y operación rápida en un modelo MoE optimizado para la ejecución local en laptops, mientras admite iteraciones rápidas del producto.



	En términos de calidad, GigaChat Lightning compite globalmente entre líderes de código abierto: supera a Qwen3-4B en tareas en idioma ruso y coincide con sus capacidades de diálogo, análisis de documentos y soluciones para aplicaciones empresariales.



	Al igual que GigaChat Ultra, publicamos no solo los pesos del modelo, sino también las técnicas de aceleración de inferencia. GigaChat Lightning supera a los competidores en su categoría. Se ejecuta casi tan rápido como Qwen3-1.7B a pesar de ser seis veces más grande.



	Ambos modelos integran herramientas externas de manera efectiva, destacando particularmente dos características principales: código y memoria.



	• El código es una herramienta para ejecutar, analizar y visualizar operaciones programáticas. Permite ejecutar fragmentos de código, trazar gráficos, realizar cálculos y probar hipótesis en tiempo real.



	• La memoria es un sistema para una comunicación personalizada, que conserva detalles importantes como objetivos, preferencias e historiales de conversación. Los modelos ofrecen a los usuarios asesoramiento personalizado y ajustan la información a lo largo de los diálogos. Los datos desactualizados o sensibles se eliminan automáticamente y los usuarios pueden editar manualmente las memorias del modelo.



	**GigaAM-v3**



	**GigaAM-v3** representa cinco nuevos modelos de código abierto de Reconocimiento Automático del Habla (ASR) diseñados para procesamiento de voz ruso de grado industrial y uso comercial. GigaAM-v3 admite asistentes de voz, centros de contacto, analítica de llamadas, agregadores de mensajes de voz y agentes multimodales.



	En la nueva versión de los modelos acústicos de GigaAM, las escalas de pre-entrenamiento pasan de 50,000 horas a 700,000 horas de audio.



	La adición de soporte para puntuación y normalización permite que el modelo compita en igualdad de condiciones con OpenAI Whisper, al tiempo que lo supera significativamente en términos de calidad de reconocimiento.





	Basado en el modelo base único de GigaAM-v3, pueden implementarse cualquier tecnología de voz: en Sber, ya se utiliza para reconocimiento del habla, síntesis del habla y permite que GigaChat procese video y audio.





	**Kandinsky 5.0**





	Kandinsky 5.0 es una familia versátil de modelos generativos visuales: Image Lite genera imágenes de alta calidad a partir de un prompt de texto y admite edición de imágenes, mientras que Video Lite y Video Pro, más avanzado, generan video a partir de prompts de texto o animan imágenes.





	El modelo **Image Lite** genera imágenes altamente detalladas en resolución HD, demuestra una comprensión profunda del contexto cultural ruso, admite de forma nativa prompts tanto en ruso como en inglés y puede generar texto en latín y cirílico. El modelo **Video Pro** produce video HD de hasta 10 segundos a 24 fps y actualmente lidera entre el código abierto global, superando Wan-2.2-A14B y logrando una calidad visual comparable con Veo 3, uno de los modelos propietarios más fuertes a nivel mundial. Para una integración sin problemas en proyectos aplicados, se lanzó la versión **Video Lite** y se optimizó para ejecutarse en GPUs de nivel de consumidor con al menos 12 GB de RAM.



	El desarrollo de la familia Kandinsky 5.0 requirió entrenamiento en mil millones de imágenes y 300 millones de videos, complementado con más de un millón de materiales multimedia adicionales para asegurar una alineación sólida con el contexto cultural local. Procesar conjuntos de datos de esta escala exigió metodologías de vanguardia, incluyendo varias técnicas desarrolladas específicamente para el proyecto. La etapa final de entrenamiento utilizó un conjunto de datos de alta calidad preparado por diseñadores y artistas profesionales para asegurar una composición, estilo y calidad visual general perfectos.



	Kandinsky 5.0 desbloquea nuevas oportunidades para aplicaciones de consumo y empresariales. Los desarrolladores y organizaciones pueden aprovechar estos modelos de acceso abierto para crear herramientas para saludos de video personalizados, animación de fotos y narración visual rica. Los profesionales creativos, incluidos directores, diseñadores, especialistas en marketing y artistas de animación, pueden confiar en Kandinsky para agilizar la creación de materiales promocionales, contenido digital y proyectos visuales comerciales. El lanzamiento de Kandinsky 5.0 marca un hito significativo en el crecimiento de un ecosistema abierto centrado en tecnologías generativas rusas modernas, empoderando a usuarios y empresas con herramientas creativas accesibles y de alta calidad impulsadas por IA.



	**Lee más en este informe.**



	**K-VAE 1.0**

	Como Kandinsky 5.0, los modelos generativos crean contenido multimedia en espacios latentes: invisible para el ojo humano. Trabajar en estas representaciones ocultas permite un entrenamiento y despliegue más rápido, más liviano y altamente escalable. Sber ahora presenta iits modelos de autoencoder patentados entrenados desde cero **K-VAE 1.0** para imágenes (2D) y videos (3D) que transforman datos visuales en representaciones latentes y los reconstruyen de vuelta con una fidelidad excepcional. Los modelos K-VAE 1.0 son los mejores del mundo entre equivalentes de código abierto. Su disponibilidad pública elevará las tecnologías de IA generativa a un nuevo nivel de calidad.

MENAFN25112025008487017809ID1110394198

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.