通义はVibe Codingを全モーダルに組み込み、Qwen3.5-Omniは215項目のSOTAを獲得しました

2026-03-30 14:06:38

概要作成中

1M AI Newsのモニタリングによると、Tongyi Labはマルチモーダル全般モデルQwen3.5-Omniを発表し、テキスト、画像、音声、および音声・映像（音動画）の入力をサポートしており、タイムスタンプ付きのきめ細かな音声・映像Captionを生成できます。公式によれば、Qwen3.5-Omni-Plusは、音声および音動画分析、推論、対話、翻訳などのタスクで215項目のSOTAを獲得しており、関連能力はGemini-3.1-Proを上回ります。

今回いちばん特別な増分は、ランキングではなく「自然に湧き上がるAudio-Visual Vibe Coding能力」です。Tongyiは、このモデルは特別なトレーニングを受けていないにもかかわらず、音声・映像の指示に基づいて直接実行可能なコードを生成できると述べています。公式ではさらに、このモデルは256Kのコンテキスト、113種類の言語認識に対応し、10時間分の音声または1時間分の動画を扱え、ネイティブでWebSearchおよび複雑なFunction Callをサポートするとしています。

Qwen3.5-OmniはThinker-Talkerの分業アーキテクチャを継承し、2つの部分はいずれもHybrid-Attention MoEへアップグレードされています。TongyiはAlibaba Cloudの百炼を通じてPlus、Flash、Lightの3つのサイズを提供し、さらにリアルタイム版Qwen3.5-Omni-Plus-Realtimeを公開しています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。