AIMPACT メッセージ、4 月 9 日、ByteDance Seed チームがネイティブ全二重音声大規模モデル Seeduplex を公開し、豆包アプリで全面展開(フルローンチ)済みであることが明らかになり、音声インタラクションが「ターン制」からリアルタイムで自然な対話へと進化したことを示しています。<br>Seeduplex は、音声と意味の共同モデリングにより、「聞きながら話す」の同期処理能力を実現し、複雑な環境下での耐干渉性能が大幅に向上しています。データによると、従来の半二重方式と比べて、その誤応答率と誤中断率は約 50% 減少しています。<br>インタラクション体験においては、このモデルは動的判停技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み(話の奪い合い)現象は 40% 減少しました。ユーザーの間(停頓)と対話の終了を、より正確に区別できるようになります。さらに、投機サンプリングと量子化最適化により、システムは高い同時並行(高並び)シナリオでも低遅延とスムーズさを維持し、通話満足度は全体で約 8.34% 向上しています。<br>今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、人に近いインタラクション」へと前進していることを意味し、今後はビジュアル能力と組み合わせることで、スマートアシスタントを「聞く、見る、考える、話す」の一体化へと推進することが期待されます。(出典:ByteDance)<br><br>
ByteDanceが全二重音声大規模モデルSeeduplexを発表、AI音声対話が「聞きながら話す」時代へ
AIMPACT メッセージ、4 月 9 日、ByteDance Seed チームがネイティブ全二重音声大規模モデル Seeduplex を公開し、豆包アプリで全面展開(フルローンチ)済みであることが明らかになり、音声インタラクションが「ターン制」からリアルタイムで自然な対話へと進化したことを示しています。
Seeduplex は、音声と意味の共同モデリングにより、「聞きながら話す」の同期処理能力を実現し、複雑な環境下での耐干渉性能が大幅に向上しています。データによると、従来の半二重方式と比べて、その誤応答率と誤中断率は約 50% 減少しています。
インタラクション体験においては、このモデルは動的判停技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み(話の奪い合い)現象は 40% 減少しました。ユーザーの間(停頓)と対話の終了を、より正確に区別できるようになります。さらに、投機サンプリングと量子化最適化により、システムは高い同時並行(高並び)シナリオでも低遅延とスムーズさを維持し、通話満足度は全体で約 8.34% 向上しています。
今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、人に近いインタラクション」へと前進していることを意味し、今後はビジュアル能力と組み合わせることで、スマートアシスタントを「聞く、見る、考える、話す」の一体化へと推進することが期待されます。(出典:ByteDance)