ByteDanceが全二重音声大規模モデルSeeduplexを発表、AI音声対話が「聞きながら話す」時代へ

robot
概要作成中

AIMPACT メッセージ、4 月 9 日、ByteDance Seed チームがネイティブ全二重音声大規模モデル Seeduplex を公開し、豆包アプリで全面展開(フルローンチ)済みであることが明らかになり、音声インタラクションが「ターン制」からリアルタイムで自然な対話へと進化したことを示しています。


Seeduplex は、音声と意味の共同モデリングにより、「聞きながら話す」の同期処理能力を実現し、複雑な環境下での耐干渉性能が大幅に向上しています。データによると、従来の半二重方式と比べて、その誤応答率と誤中断率は約 50% 減少しています。


インタラクション体験においては、このモデルは動的判停技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み(話の奪い合い)現象は 40% 減少しました。ユーザーの間(停頓)と対話の終了を、より正確に区別できるようになります。さらに、投機サンプリングと量子化最適化により、システムは高い同時並行(高並び)シナリオでも低遅延とスムーズさを維持し、通話満足度は全体で約 8.34% 向上しています。


今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、人に近いインタラクション」へと前進していることを意味し、今後はビジュアル能力と組み合わせることで、スマートアシスタントを「聞く、見る、考える、話す」の一体化へと推進することが期待されます。(出典:ByteDance)



原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.23K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.23K保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:0
    0.00%
  • ピン