A maior libertação de código aberto da Europa: Sber lança uma linha de redes neurais russas de ponta

2026-04-06 16:56:49

(MENAFN) A Sber disponibiliza os pesos de dois novos modelos MoE de topo na série GigaChat — Ultra Preview e Lightning — treinados desde o zero para tarefas em língua russa, juntamente com a próxima geração de modelos de reconhecimento de fala aberta GigaAM-v3 com conhecimento de pontuação e normalização.

	Além disso, todos os modelos de geração de imagens e vídeo da mais recente família Kandinsky 5.0 —** Video Pro, Video Lite e Image Lite** — estão agora disponíveis publicamente. Estes modelos avançados disponibilizam compreensão nativa de prompts em russo, incorporam conhecimento específico para o contexto cultural russo e geram robustamente texto em cirílico tanto em imagens como em vídeos. Além disso, os modelos K-VAE 1.0 para codificação e descodificação de conteúdo visual — crítico para treinar redes neuronais de geração visual e entre os melhores modelos open-source a nível mundial — foram lançados. O código e os pesos de todos estes modelos são distribuídos sob a licença MIT, permitindo o uso comercial.





	**_Andrey Belevtsev, Vice-Presidente Sénior, Diretor de Tecnologia & AI, Sberbank:_**



	_“Acreditamos que criar inteligência artificial de classe mundial exige duas coisas: recursos massivos e equipas de I&D de nível mundial. A Sber tem ambas. Mas o que mais importa é partilhar — não fechar a tecnologia. A nossa estratégia é tornar-nos uma fundação aberta para a inovação a nível nacional. É por isso que estamos a lançar os pesos dos modelos. Este é um momento decisivo. Qualquer empresa na Rússia, seja um banco ou uma startup, pode instalar estes modelos nos seus sistemas fechados, ajustá-los (fine-tune) em conjuntos de dados internos sensíveis e manter controlo total sobre as suas informações confidenciais. Esta abordagem reflete verdadeira soberania tecnológica: a IA pertence a toda a nação, impulsionando transformações do negócio e o crescimento económico. Gostaria também de salientar que o Ultra estará em breve disponível para clientes empresariais, com um custo de propriedade otimizado para implantações corporativas internas.”_



	**GigaChat Ultra e GigaChat Lightning **GigaChat expande com a adição de GigaChat Ultra Preview e GigaChat Lightning. O GigaChat Ultra Preview destaca-se como o maior e mais poderoso modelo na linha GigaChat. O primeiro modelo neste nível na Rússia, embora ainda esteja a ser treinado, já supera benchmarks internacionais como o DeepSeek V3.1 nos principais indicadores de qualidade para desempenho em língua russa, ficando em primeiro lugar no benchmark MERA. Apesar do seu tamanho, mantém uma velocidade impressionante, atualmente mais rápido do que o GigaChat 2 Max, o modelo de topo anterior.



	Como estamos a disponibilizar gratuitamente o GigaChat Ultra Preview, os programadores ganham a capacidade de ajustar o modelo offline. Por exemplo, em ambientes corporativos seguros onde são críticos controlos rigorosos de privacidade dos dados e da qualidade dos dados.



		O seu irmão, o GigaChat Lightning, oferece o equilíbrio oposto: tamanho compacto e operação rápida num modelo MoE otimizado para execução local em computadores portáteis, enquanto suporta rápidas iterações de produto.



	Em termos de qualidade, o GigaChat Lightning compete globalmente entre líderes de open-source: supera o Qwen3-4B em tarefas em língua russa e corresponde às suas capacidades de diálogo, análise de documentos e soluções para aplicações empresariais.



	Como o GigaChat Ultra, publicamos não apenas os pesos do modelo, mas também as técnicas de aceleração da inferência. O GigaChat Lightning excede os concorrentes na sua categoria. Executa-se quase tão rápido quanto o Qwen3-1.7B, apesar de ser seis vezes maior.



	Os dois modelos integram ferramentas externas de forma eficaz, destacando particularmente duas funcionalidades essenciais: código e memória.



	• Código é uma ferramenta para executar, analisar e visualizar operações programáticas. Permite executar excertos de código, traçar gráficos, realizar cálculos e testar hipóteses em tempo real.



	• Memória é um sistema para comunicação personalizada, guardando detalhes importantes como objetivos, preferências e históricos de conversas. Os modelos oferecem aos utilizadores conselhos personalizados e ajustam a informação ao longo dos diálogos. Dados desatualizados ou sensíveis são apagados automaticamente, e os utilizadores podem editar manualmente as memórias do modelo.



	**GigaAM-v3**



		O GigaAM-v3 representa cinco novos modelos open-source de Reconhecimento Automático de Fala (ASR) concebidos para processamento de fala russa de qualidade industrial e para utilização comercial. O GigaAM-v3 suporta assistentes de voz, centros de contacto, analytics de chamadas, agregadores de mensagens de voz e agentes multimodais.



	No novo versão dos modelos acústicos GigaAM, as escalas de pré-treino aumentam de 50.000 horas para 700.000 horas de áudio.



		A adição de suporte a pontuação e normalização permite ao modelo competir em igualdade de condições com o OpenAI Whisper, enquanto o supera significativamente em termos de qualidade de reconhecimento.





	Com base no modelo de base único do GigaAM-v3, quaisquer tecnologias de fala podem ser implementadas: na Sber, já é utilizado para reconhecimento de fala, síntese de fala e permite que o GigaChat processe vídeo e áudio.





	**Kandinsky 5.0**





	O Kandinsky 5.0 é uma família versátil de modelos generativos visuais: Image Lite gera imagens de alta qualidade a partir de um texto de prompt e suporta edição de imagens, enquanto Video Lite e o mais avançado Video Pro geram vídeo a partir de prompts de texto ou animam imagens.





	O modelo **Image Lite** gera imagens altamente detalhadas em resolução HD, demonstra uma profunda compreensão do contexto cultural russo, suporta nativamente prompts tanto em russo como em inglês, e consegue gerar texto em latim e cirílico. O modelo **Video Pro** produz vídeo HD com até 10 segundos a 24 fps e atualmente lidera o open-source global ao superar Wan-2.2-A14B e ao atingir uma qualidade visual comparável com a Veo 3, um dos mais fortes modelos proprietários do mundo. Para uma integração perfeita em projetos aplicados, a versão **Video Lite** foi lançada e otimizada para correr em GPUs de nível consumidor com pelo menos 12 GB de RAM.



	O desenvolvimento da família Kandinsky 5.0 exigiu treino em um bilião de imagens e 300 milhões de vídeos, complementado com mais de um milhão de materiais multimédia adicionais para garantir um forte alinhamento com o contexto cultural local. O processamento de conjuntos de dados nesta escala exigiu metodologias de ponta, incluindo várias técnicas desenvolvidas especificamente para o projeto. O estágio final de treino utilizou um conjunto de dados de alta qualidade preparado por designers e artistas profissionais para garantir uma composição, estilo e qualidade visual globais perfeitos.



	O Kandinsky 5.0 desbloqueia novas oportunidades para aplicações de consumo e empresariais. Programadores e organizações podem tirar partido destes modelos de acesso aberto para criar ferramentas para saudações em vídeo personalizadas, animação de fotografias e rica narrativa visual. Profissionais criativos, incluindo realizadores, designers, marketeers e artistas de animação, podem contar com o Kandinsky para agilizar a criação de materiais promocionais, conteúdos digitais e projetos visuais comerciais. O lançamento do Kandinsky 5.0 marca um marco significativo no crescimento de um ecossistema aberto centrado em tecnologias generativas russas modernas, capacitando utilizadores e empresas com ferramentas criativas acessíveis e de alta qualidade baseadas em IA.



	**Leia mais neste relatório.**



	**K-VAE 1.0**

	Modelos generativos como o Kandinsky 5.0 criam conteúdo de media em espaços latentes — invisíveis ao olho humano. Trabalhar nestas representações ocultas permite um treino e uma implementação mais rápidos, mais leves e altamente escaláveis. A Sber está agora a introduzir os seus próprios modelos autoencoder treinados desde o zero **K-VAE 1.0** para imagens (2D) e vídeos (3D) que transformam dados visuais em representações latentes e os reconstróem de volta com uma fidelidade excecional. Os modelos K-VAE 1.0 são os melhores do mundo entre equivalentes open-source. A sua disponibilidade pública elevará as tecnologias de IA generativa para um novo nível de qualidade.

MENAFN25112025008487017809ID1110394198

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.