AIMPACT メッセージ、4 月 9 日、バイトダンスの Seed チームはネイティブの全二重音声大規模モデル Seeduplex を発表し、豆包アプリに全面的に導入されました。これにより、音声インタラクションは「ターン制」からリアルタイムの自然対話へと進化しました。<br>Seeduplex は音声と意味の結合モデルを通じて、「聞きながら話す」同期処理能力を実現し、複雑な環境下での干渉耐性を大幅に向上させています。データによると、従来の半二重方案と比較して、誤応答率と誤割り込み率は約 50%低下しています。<br>インタラクション体験において、このモデルは動的停止判定技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み現象を 40%低減させ、ユーザーの停止と対話終了をより正確に区別できるようになっています。同時に、投機サンプリングと量子化最適化により、高並行シナリオでも低遅延とスムーズさを維持し、全体的な通話満足度は約 8.34%向上しています。<br>今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、類人インタラクション」へと進化していることを意味し、将来的には視覚能力と組み合わせて、スマートアシスタントの「聞く、見る、考える、話す」一体化を推進することが期待されています。(出典:バイトダンス)<br><br>
字节跳动は全双工音声大規模モデルSeeduplexを発表し、AI音声対話が「聞きながら話す」時代に突入
AIMPACT メッセージ、4 月 9 日、バイトダンスの Seed チームはネイティブの全二重音声大規模モデル Seeduplex を発表し、豆包アプリに全面的に導入されました。これにより、音声インタラクションは「ターン制」からリアルタイムの自然対話へと進化しました。
Seeduplex は音声と意味の結合モデルを通じて、「聞きながら話す」同期処理能力を実現し、複雑な環境下での干渉耐性を大幅に向上させています。データによると、従来の半二重方案と比較して、誤応答率と誤割り込み率は約 50%低下しています。
インタラクション体験において、このモデルは動的停止判定技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み現象を 40%低減させ、ユーザーの停止と対話終了をより正確に区別できるようになっています。同時に、投機サンプリングと量子化最適化により、高並行シナリオでも低遅延とスムーズさを維持し、全体的な通話満足度は約 8.34%向上しています。
今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、類人インタラクション」へと進化していることを意味し、将来的には視覚能力と組み合わせて、スマートアシスタントの「聞く、見る、考える、話す」一体化を推進することが期待されています。(出典:バイトダンス)