ヨーロッパ最大のオープンソースリリース：Sberが最先端のロシア神経ネットワークのラインを公開

RunWithRugs · 2026-04-06T16:56:49+00:00

(MENAFN) Sberは、GigaChatシリーズの新しいフラッグシップMoEモデルであるUltra PreviewとLightningの重みを公開しました。これらはロシア語タスク向けにゼロから訓練されており、次世代のオープンスピーチ認識モデルGigaAM-v3も、句読点や正規化に精通しています。

RunWithRugs

2026-04-06 16:56:49

(MENAFN) Sberは、GigaChatシリーズの2つの新しいフラッグシップMoEモデルの重みを公開しました — Ultra Preview と Lightning — ロシア語タスク向けにゼロから学習されたほか、句読点と正規化に詳しい次世代の公開音声認識モデル GigaAM-v3 も併せて提供されます。

	さらに、最新のKandinsky 5.0ファミリーのすべての画像および動画生成モデル — **Video Pro, Video Lite、Image Lite** — が現在、一般公開されています。これらの高度なモデルは、ロシア語のプロンプト理解をネイティブに備え、ロシアの文化的文脈に関する特定の知識を取り込み、画像と動画の両方でキリル文字のテキストを堅牢に生成します。加えて、視覚コンテンツのエンコードおよびデコード用の K-VAE 1.0 モデル — 視覚生成ニューラルネットワークの学習において重要であり、また世界でも屈指のオープンソースモデルの一つ — がリリースされました。これらすべてのモデルのコードと重みはMITライセンスのもとで配布されており、商用利用が可能です。





	**_アンドレイ・ベレフツェフ、シニア・バイス・プレジデント、技術およびAI責任者、Sberbank:_**



	_「私たちは、ワールドクラスの人工知能を作るには、2つのものが必要だと考えています。大量のリソースと、世界水準のR&Dチームです。Sberは両方を持っています。しかし、最も重要なのは“共有”であり、“技術の囲い込み”ではありません。私たちの戦略は、全国規模でイノベーションのためのオープンな基盤になることです。だからこそ、モデルの重みをリリースします。これは重要な転換点です。ロシア国内のどの企業でも、銀行であれスタートアップであれ、これらのモデルを自社の閉鎖されたシステム内に導入し、機微な社内データセットでファインチューニングし、機密情報について完全な管理を維持できます。このアプローチは、真の技術主権を反映しています。AIは国全体のものであり、ビジネスの変革と経済成長を牽引します。また、Ultraは近い将来、法人顧客向けにも提供されます。社内向けの法人展開に最適化された所有コストで提供される予定です。」_



	**GigaChat Ultra と GigaChat Lightning** GigaChat は、GigaChat Ultra Preview と GigaChat Lightning の追加により拡張します。GigaChat Ultra Previewは、GigaChatラインナップの中で最大かつ最も強力なモデルとして際立っています。ロシアでこの規模のモデルとして初めてであり、なお学習中ではありますが、すでにロシア語のパフォーマンスにおける総合品質指標で DeepSeek V3.1 のような国際的ベンチマークを上回り、MERA ベンチマークでは1位にランクインしています。そのサイズにもかかわらず、印象的な速度を維持しており、現在のところ、前世代のフラッグシップモデルである GigaChat 2 Max よりも高速です。



	GigaChat Ultra Preview を無償で提供しているため、開発者はモデルをオフラインでファインチューニングできるようになります。たとえば、厳格なデータプライバシー管理とデータ品質が重要になる安全な法人環境の中でです。



	その兄弟モデルである GigaChat Lightning は、逆のバランスを提供します。コンパクトなサイズと、ローカル実行向けに最適化されたMoEモデルでの高速な動作です。ノートパソコン上での実行を想定しつつ、迅速なプロダクト反復にも対応します。



	品質面では、GigaChat Lightning はオープンソースのリーダーの間で世界的に競争力があります。ロシア語タスクにおいて Qwen3-4B を上回り、その対話能力、ドキュメント分析、そしてビジネス向けアプリケーションのソリューションと同等の性能を持ちます。



	GigaChat Ultra と同様に、私たちはモデルの重みだけでなく、推論の加速技術も公開します。GigaChat Lightning は、そのクラスにおいて競合を上回っています。6倍大きいにもかかわらず、Qwen3-1.7B とほぼ同じ速さで動作します。



	両方のモデルは外部ツールを効果的に統合しており、特に2つの中核機能が際立っています。コードとメモリです。



	• コードは、プログラム的な操作を実行、分析、可視化するためのツールです。コードスニペットの実行、グラフのプロット、計算の実施、仮説のリアルタイム検証を可能にします。



	• メモリは、パーソナライズされたコミュニケーションのためのシステムであり、目的、嗜好、会話履歴といった重要な詳細を保持します。モデルはユーザーにパーソナライズされた助言を提供し、対話の中で情報を調整します。古いまたは機微なデータは自動的に削除され、ユーザーはモデルのメモリを手動で編集できます。



	**GigaAM-v3**



	GigaAM-v3 は、産業グレードおよび商用利用向けのロシア語音声処理のために設計された5つの新しいオープンソース 自動音声認識（ASR）モデルを示します。GigaAM-v3 は、音声アシスタント、コンタクトセンター、コール分析、ボイスメッセージ集約、マルチモーダルエージェントをサポートします。



	新しいバージョンの GigaAM 音響モデルでは、事前学習のスケールが 50,000時間から 700,000時間の音声へ拡大されています。



	句読点と正規化のサポートを追加したことで、モデルは OpenAI Whisper と同等の条件で競争できるようになり、認識品質の面ではそれを大きく上回ります。





	独自の基盤である GigaAM-v3 モデルに基づいて、あらゆる音声技術を実装できます。Sberでは、すでに音声認識、音声合成に利用されており、GigaChat が動画および音声を処理できるようにしています。





	**Kandinsky 5.0**





	Kandinsky 5.0 は、汎用性の高い視覚生成モデルのファミリーです。Image Lite はテキストプロンプトから高品質な画像を生成し、画像編集もサポートします。一方で Video Lite と、さらに高度な Video Pro はテキストプロンプトから動画を生成するか、画像をアニメーション化します。





	**Image Lite** モデルは、HD 解像度で非常に詳細な画像を生成し、ロシアの文化的文脈に対する深い理解を示し、ロシア語と英語の両方のプロンプトをネイティブにサポートし、ラテン文字とキリル文字のテキストを生成できます。**Video Pro** モデルは、24 fpsで最長10秒のHD動画を生成し、現在、Wan-2.2-A14B を上回るグローバルなオープンソースで先行しており、世界でも最強クラスの専有モデルの一つである Veo 3 と同等の視覚品質を達成しています。応用プロジェクトへのシームレスな統合のために、**Video Lite** バージョンがリリースされ、少なくとも12GBのRAMを備えた一般向けGPUで動作するよう最適化されました。



	Kandinsky 5.0ファミリーの開発には、10億枚の画像と3億本の動画での学習が必要であり、ローカルの文化的文脈との強い整合性を確保するために、さらに17億件以上の追加のマルチメディア資料で補いました。この規模のデータセットの処理には、複数の、プロジェクトのために特別に開発された手法を含む、最先端の手法が必要でした。最終学習段階では、完璧な構図、スタイル、そして全体的な視覚品質を確実にするために、プロのデザイナーやアーティストによって準備された高品質なデータセットが用いられました。



	Kandinsky 5.0 は、コンシューマー向けおよびエンタープライズ向けのアプリケーションに新たな機会を解き放ちます。開発者や組織は、これらのオープンアクセスモデルを活用して、パーソナライズされた動画の挨拶、写真のアニメーション、そして豊かなビジュアル・ストーリーテリングのためのツールを構築できます。監督、デザイナー、マーケター、アニメーションアーティストなどのクリエイティブ専門家は、プロモーション素材、デジタルコンテンツ、商用のビジュアルプロジェクトの作成を効率化するために Kandinsky に頼ることができます。Kandinsky 5.0 のリリースは、現代のロシアの生成技術を中心としたオープンなエコシステムの成長における大きな節目を示し、ユーザーやビジネスに、利用しやすく高品質なAI駆動のクリエイティブツールを提供します。



	**このレポートでさらに読む。**



	**K-VAE 1.0**

	Kandinsky 5.0 のような生成モデルは、潜在空間でメディアコンテンツを作成します — 人間の目には見えません。このような隠れた表現の中で作業することで、より高速で、より軽量で、かつ高度にスケーラブルな学習とデプロイが可能になります。Sber は現在、視覚データを潜在表現に変換し、それを卓越した忠実さで再構築する、画像（2D）および動画（3D）向けの、同社独自に訓練されたゼロからのオートエンコーダモデル **K-VAE 1.0** を導入しています。K-VAE 1.0 モデルは、オープンソースの同等品の中で世界最高です。これらが一般公開されることで、生成AI技術は新たな品質水準へ引き上げられます。

MENAFN25112025008487017809ID1110394198

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。