Запуск StepAudio2.5ASR: введение механизма MTP для ускорения, окно 32K полностью устраняет разрывы транскрипции.

robot
Генерация тезисов в процессе
ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, компания JieYue XingChen выпустила новую модель автоматического распознавания речи StepAudio 2.5 ASR, которая уже полностью доступна на их открытой платформе. Эта версия впервые внедряет технологию многотокенного предсказания (MTP) больших языковых моделей в область распознавания речи, значительно увеличивая скорость логического вывода и одновременно используя контекстное окно большой модели в 32K, что устраняет ограничения традиционного метода сегментации и склейки при транскрибации длинных аудиофайлов. Традиционное распознавание речи ограничено авторегрессивным механизмом, требующим вывода токенов по одному. StepAudio 2.5 ASR переносит глубоко интегрированную архитектуру ASR+MTP-5, аналогичную Step 3.5 Flash, предсказывая несколько кандидатов токенов одновременно и параллельно верифицируя их. Официальные лица заявляют, что эта архитектура увеличивает пропускную способность логического вывода модели на 400%, снижает задержку на 60%, а стоимость логического вывода падает на 80%, достигая пиковой скорости 500 токенов/с. Для решения проблемы разрыва контекста, характерной для распространённого в отрасли подхода «сегментация-транскрибация-склейка» (например, при транскрибации второй половины забывается контекст начала), новая модель напрямую использует контекстное окно в 32K, поддерживая однократное считывание полного аудиофайла длительностью до 30 минут. При тестировании с полной загрузкой в 30 минут модель не показала снижения точности со временем. Её совокупная частота ошибок на 10 авторитетных открытых тестовых наборах на китайском и английском языках, включая LibriSpeech, ниже, чем у конкурентов. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено