字节跳动は全双工音声大規模モデルSeeduplexを発表し、AI音声対話が「聞きながら話す」時代に突入

robot
概要作成中

AIMPACT メッセージ、4 月 9 日、バイトダンスの Seed チームはネイティブの全二重音声大規模モデル Seeduplex を発表し、豆包アプリに全面的に導入されました。これにより、音声インタラクションは「ターン制」からリアルタイムの自然対話へと進化しました。


Seeduplex は音声と意味の結合モデルを通じて、「聞きながら話す」同期処理能力を実現し、複雑な環境下での干渉耐性を大幅に向上させています。データによると、従来の半二重方案と比較して、誤応答率と誤割り込み率は約 50%低下しています。


インタラクション体験において、このモデルは動的停止判定技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み現象を 40%低減させ、ユーザーの停止と対話終了をより正確に区別できるようになっています。同時に、投機サンプリングと量子化最適化により、高並行シナリオでも低遅延とスムーズさを維持し、全体的な通話満足度は約 8.34%向上しています。


今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、類人インタラクション」へと進化していることを意味し、将来的には視覚能力と組み合わせて、スマートアシスタントの「聞く、見る、考える、話す」一体化を推進することが期待されています。(出典:バイトダンス)



原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン