Step запускає StepAudio2.5ASR: впроваджує механізм MTP для прискорення, 32K вікно повністю усуває переривання транскрипції.

robot
Генерація анотацій у процесі

ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Dongcha Beating, компанія StepFun випустила нову модель автоматичного розпізнавання мовлення StepAudio 2.5 ASR, яка вже повністю доступна на їхній відкритій платформі.

Ця версія першою впроваджує технологію багатотокенного прогнозування (MTP) великих мовних моделей у сферу розпізнавання мовлення, що значно підвищує швидкість логічного висновку, одночасно використовуючи 32K контекстне вікно великої моделі, порушуючи обмеження традиційного транскрибування довгої аудіоінформації, яке потребувало нарізання та з'єднання.

Традиційне розпізнавання мовлення обмежене авторегресійним механізмом і має виводити токени послідовно. StepAudio 2.5 ASR використовує ту саму глибоко інтегровану архітектуру ASR+MTP-5, що й Step 3.5 Flash, яка одночасно прогнозує кілька кандидатів токенів і паралельно перевіряє їх. Офіційні джерела стверджують, що ця архітектура підвищує пропускну здатність логічного висновку моделі на 400%, знижує затримку на 60%, а вартість логічного висновку – на 80%, досягаючи піку в 500 токенів/с.

Щодо проблеми розриву контексту, яка виникає при загальноприйнятому рішенні «нарізання-транскрибування-склеювання» (наприклад, під час транскрибування другої половини забувається початковий контекст), нова модель безпосередньо використовує 32K контекстне вікно, підтримуючи одноразове зчитування повного аудіо тривалістю до 30 хвилин. У тесті з повним навантаженням на 30 хвилин модель не показала погіршення точності з часом. Її загальний рівень помилок на 10 авторитетних відкритих тестових наборах, таких як LibriSpeech (китайською та англійською мовами), нижчий, ніж у конкурентів.

(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено