Я только что обнаружил что-то интересное в области распознавания речи. Sierra выпустила в открытый доступ μ-Bench, мультиязычный бенчмарк для ASR, который решает настоящую проблему: большинство существующих бенчмарков сосредоточены на английском языке, что серьезно ограничивает оценку систем в реальных условиях клиента.



Что особенно важно с μ-Bench, так это то, что он предлагает более нюансированный подход, чем старые методы. Вместо традиционной метрики Word Error Rate (WER) они ввели метрику Utterance Error Rate (UER), которая различает ошибки, реально меняющие смысл сообщения, и те, что не влияют на понимание. Это значительный шаг вперед для оценки реального качества.

Набор данных включает 250 подлинных записей обслуживания клиентов и 4270 аудиофрагментов с аннотациями, охватывающих пять языков: английский, испанский, турецкий, вьетнамский и мандарин. Это уже гораздо более репрезентативно, чем было раньше.

Что касается производительности, Google Chirp-3 явно лидирует по точности, в то время как Deepgram Nova-3 выделяется скоростью, но отстает по мультиязычной точности. Интересно наблюдать, как разные поставщики позиционируются по этим критериям.

Полный бенчмарк и рейтинги теперь доступны на Hugging Face, что открывает возможность для большего участия поставщиков. Это пример open source-инициативы, которая действительно стимулирует развитие индустрии, особенно в области улучшения распознавания речи для реальных сценариев на нескольких языках.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить