通义はVibe Codingを全モーダルに組み込み、Qwen3.5-Omniは215項目のSOTAを獲得しました

robot
概要作成中

1M AI Newsのモニタリングによると、Tongyi Labはマルチモーダル全般モデルQwen3.5-Omniを発表し、テキスト、画像、音声、および音声・映像(音動画)の入力をサポートしており、タイムスタンプ付きのきめ細かな音声・映像Captionを生成できます。公式によれば、Qwen3.5-Omni-Plusは、音声および音動画分析、推論、対話、翻訳などのタスクで215項目のSOTAを獲得しており、関連能力はGemini-3.1-Proを上回ります。

今回いちばん特別な増分は、ランキングではなく「自然に湧き上がるAudio-Visual Vibe Coding能力」です。Tongyiは、このモデルは特別なトレーニングを受けていないにもかかわらず、音声・映像の指示に基づいて直接実行可能なコードを生成できると述べています。公式ではさらに、このモデルは256Kのコンテキスト、113種類の言語認識に対応し、10時間分の音声または1時間分の動画を扱え、ネイティブでWebSearchおよび複雑なFunction Callをサポートするとしています。

Qwen3.5-OmniはThinker-Talkerの分業アーキテクチャを継承し、2つの部分はいずれもHybrid-Attention MoEへアップグレードされています。TongyiはAlibaba Cloudの百炼を通じてPlus、Flash、Lightの3つのサイズを提供し、さらにリアルタイム版Qwen3.5-Omni-Plus-Realtimeを公開しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.23K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.31K保有者数:2
    0.44%
  • ピン