ByteDanceが全二重音声大規模モデルSeeduplexを発表、AI音声対話が「聞きながら話す」時代へ

2026-04-09 09:00:17

概要作成中

AIMPACT メッセージ、4 月 9 日、ByteDance Seed チームがネイティブ全二重音声大規模モデル Seeduplex を公開し、豆包アプリで全面展開（フルローンチ）済みであることが明らかになり、音声インタラクションが「ターン制」からリアルタイムで自然な対話へと進化したことを示しています。

Seeduplex は、音声と意味の共同モデリングにより、「聞きながら話す」の同期処理能力を実現し、複雑な環境下での耐干渉性能が大幅に向上しています。データによると、従来の半二重方式と比べて、その誤応答率と誤中断率は約 50% 減少しています。

インタラクション体験においては、このモデルは動的判停技術を導入し、応答遅延を約 250 ミリ秒短縮し、割り込み（話の奪い合い）現象は 40% 減少しました。ユーザーの間（停頓）と対話の終了を、より正確に区別できるようになります。さらに、投機サンプリングと量子化最適化により、システムは高い同時並行（高並び）シナリオでも低遅延とスムーズさを維持し、通話満足度は全体で約 8.34% 向上しています。

今回のアップグレードは、AI 音声が「リアルタイム、多モーダル、人に近いインタラクション」へと前進していることを意味し、今後はビジュアル能力と組み合わせることで、スマートアシスタントを「聞く、見る、考える、話す」の一体化へと推進することが期待されます。（出典：ByteDance）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね