ByteDance випустила повнодуплексну мовну модель Seeduplex, штучний інтелект для голосової взаємодії входить у еру «слухати і говорити одночасно»

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 9 квітня, команда Seed від ByteDance випустила нативну повнодіалогову голосову модель Seeduplex, яка вже повністю запущена в додатку Doubao, що ознаменовує перехід голосової взаємодії від «поточних раундів» до реального часу та природних діалогів.


Seeduplex за допомогою спільного моделювання голосу та семантики реалізує здатність одночасної обробки «слухати і говорити», значно покращуючи стійкість до перешкод у складних умовах. Дані показують, що порівняно з традиційними напівдуплексними рішеннями, рівень помилкових відповідей та переривань зменшився приблизно на 50%.


Щодо взаємодії, ця модель вводить технологію динамічного визначення зупинки, скорочуючи затримку відповіді приблизно на 250 мілісекунд, зменшуючи явище перехоплення розмови на 40%, що дозволяє точніше розрізняти паузи користувача та завершення діалогу. Також за допомогою спекулятивного зразка та оптимізації кількісного аналізу система зберігає низьку затримку та плавність роботи навіть у високонавантажених сценаріях, загальна задоволеність розмовою зросла приблизно на 8,34%.


Це оновлення означає, що AI-голос поступово еволюціонує у напрямку «реального часу, мультимодальної, людоподібної взаємодії», і в майбутньому очікується поєднання з візуальними можливостями для просування інтелектуальних помічників у напрямку «слухати, бачити, думати, говорити» у єдиній системі. (Джерело: ByteDance)



Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити