#STT# تقييم مختصر لنموذج الصوت الجديد الذي أطلقته OpenAI


أصدرت OpenAI نموذجين جديدين لتحويل الكلام إلى نص (STT) ونموذجًا واحدًا لتحويل النص إلى كلام (TTS).
لقد جربت نموذج TTS بشكل بسيط، وأشعر أن طابع الذكاء الاصطناعي لا يزال قويًا، خاصة في نطق TTS باللغة الصينية، حيث يبدو غير طبيعي، وغير سلس، وحتى يوجد أخطاء نطق واضحة.
في مجال TTS باللغة الصينية، يبدو أن TTS الخاص بـ ByteDance و Azure يمكن استخدامه تجاريًا، بينما TTS الخاص بـ OpenAI لا يزال غير جاهز. من المحتمل أن يكون ذلك مرتبطًا بحجم بيانات التدريب.
لم أختبر STT الصينية بعد، ولكن من خلال الرسم البياني لمقارنة الأداء الذي قدمته OpenAI، يبدو أن scribe-v1 قد تجاوز OpenAI.
أعتقد أنه لا يزال يتعين على OpenAI العمل نحو نموذج كبير موحد متعدد الوسائط ، وعدم فصل STT > LLM > TTS.
عيوب الانفصال:
- إن الفصل بين الثلاثة من وجهة نظر التطبيق يعني حجمًا كبيرًا للغاية من الأعمال الهندسية، كما أن سلسلة الاستدعاء الكاملة معقدة، مما يجعل ضمان تأخير سلس أمرًا صعبًا.
LLM هذه الخطوة ستؤدي حتماً إلى فقدان المعلومات (نغمة الصوت، النبرة، المشاعر، إلخ)، وهذه المعلومات تعتبر أكثر أهمية في التواصل البشري (تخيل أن صديقتك تقول لك "أكرهك"، أي نغمة تعبر عن ماذا).
من المتوقع أن تكون كمية التدريب وحساب نموذج الدمج ليست من نفس المستوى، لذا تم اختيار ذلك في الوقت الحالي، وهو اختيار يعتمد على الموازنة.
STT-4.16%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • إعادة النشر
  • مشاركة
تعليق
0/400
pi币pivip
· 03-21 23:35
ادخل مركز!🚗
شاهد النسخة الأصليةرد0
  • تثبيت