#STT# Короткий огляд нового мовного моделювання OpenAI


OpenAI випустила дві нові моделі STT (перетворення мови в текст) та одну модель TTS (перетворення тексту в мову).
Простий досвід використання моделі TTS, відчувається, що присутній сильний штучний інтелект, особливо у вимові китайського TTS, воно суворе, не плавне, а іноді навіть з помітними помилками у вимові.
У китайському TTS, здається, що TTS Byte і Azure можуть бути комерційними, а OpenAI ще не зовсім підходить. Напевно, це пов'язано з обсягом навчальних даних.
Китайський STT ще не був випробуваний, але згідно з графіком порівняння продуктивності, наданим OpenAI, scribe-v1 перевершує OpenAI.
Я думаю, що OpenAI все ще має працювати над мультимодальною уніфікованою великою моделлю, а не розділяти STT > LLM > TTS.
Недоліки розділення:
- Розділення трьох аспектів з точки зору застосування є надзвичайно великою, а загальний виклик ланцюга є складним, тому затримки дуже важко забезпечити.
LLM цей етап безумовно призведе до втрати інформації (інтонація, тон, емоції тощо), а ця інформація є більш важливою в людській комунікації (уявіть, що ваша дівчина каже вам "не подобається", який тон означає яке значення).
Ймовірно, обсяги навчання та обчислень для інтегрованої моделі не є одного порядку, тому зараз роблять такий вибір, вибір компромісу.
STT-4.19%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
0/400
pi币pivip
· 03-21 23:35
快увійти в позицію!🚗
Переглянути оригіналвідповісти на0
  • Закріпити