#STT# Короткий огляд нового мовного моделювання OpenAI
OpenAI випустила дві нові моделі STT (перетворення мови в текст) та одну модель TTS (перетворення тексту в мову). Простий досвід використання моделі TTS, відчувається, що присутній сильний штучний інтелект, особливо у вимові китайського TTS, воно суворе, не плавне, а іноді навіть з помітними помилками у вимові. У китайському TTS, здається, що TTS Byte і Azure можуть бути комерційними, а OpenAI ще не зовсім підходить. Напевно, це пов'язано з обсягом навчальних даних. Китайський STT ще не був випробуваний, але згідно з графіком порівняння продуктивності, наданим OpenAI, scribe-v1 перевершує OpenAI. Я думаю, що OpenAI все ще має працювати над мультимодальною уніфікованою великою моделлю, а не розділяти STT > LLM > TTS. Недоліки розділення: - Розділення трьох аспектів з точки зору застосування є надзвичайно великою, а загальний виклик ланцюга є складним, тому затримки дуже важко забезпечити. LLM цей етап безумовно призведе до втрати інформації (інтонація, тон, емоції тощо), а ця інформація є більш важливою в людській комунікації (уявіть, що ваша дівчина каже вам "не подобається", який тон означає яке значення). Ймовірно, обсяги навчання та обчислень для інтегрованої моделі не є одного порядку, тому зараз роблять такий вибір, вибір компромісу.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
#STT# Короткий огляд нового мовного моделювання OpenAI
OpenAI випустила дві нові моделі STT (перетворення мови в текст) та одну модель TTS (перетворення тексту в мову).
Простий досвід використання моделі TTS, відчувається, що присутній сильний штучний інтелект, особливо у вимові китайського TTS, воно суворе, не плавне, а іноді навіть з помітними помилками у вимові.
У китайському TTS, здається, що TTS Byte і Azure можуть бути комерційними, а OpenAI ще не зовсім підходить. Напевно, це пов'язано з обсягом навчальних даних.
Китайський STT ще не був випробуваний, але згідно з графіком порівняння продуктивності, наданим OpenAI, scribe-v1 перевершує OpenAI.
Я думаю, що OpenAI все ще має працювати над мультимодальною уніфікованою великою моделлю, а не розділяти STT > LLM > TTS.
Недоліки розділення:
- Розділення трьох аспектів з точки зору застосування є надзвичайно великою, а загальний виклик ланцюга є складним, тому затримки дуже важко забезпечити.
LLM цей етап безумовно призведе до втрати інформації (інтонація, тон, емоції тощо), а ця інформація є більш важливою в людській комунікації (уявіть, що ваша дівчина каже вам "не подобається", який тон означає яке значення).
Ймовірно, обсяги навчання та обчислень для інтегрованої моделі не є одного порядку, тому зараз роблять такий вибір, вибір компромісу.