Что особенно важно с μ-Bench, так это то, что он предлагает более нюансированный подход, чем старые методы. Вместо традиционной метрики Word Error Rate (WER) они ввели метрику Utterance Error Rate (UER), которая различает ошибки, реально меняющие смысл сообщения, и те, что не влияют на понимание. Это значительный шаг вперед для оценки реального качества.

Набор данных включает 250 подлинных записей обслуживания клиентов и 4270 аудиофрагментов с аннотациями, охватывающих пять языков: английский, испанский, турецкий, вьетнамский и мандарин. Это уже гораздо более репрезентативно, чем было раньше.

Что касается производительности, Google Chirp-3 явно лидирует по точности, в то время как Deepgram Nova-3 выделяется скоростью, но отстает по мультиязычной точности. Интересно наблюдать, как разные поставщики позиционируются по этим критериям.

Полный бенчмарк и рейтинги теперь доступны на Hugging Face, что открывает возможность для большего участия поставщиков. Это пример open source-инициативы, которая действительно стимулирует развитие индустрии, особенно в области улучшения распознавания речи для реальных сценариев на нескольких языках.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
Gate13thAnniversaryLive
1.15M Популярность
#
WCTCTradingChallengeShare8MUSDT
777.55K Популярность
#
BitcoinBouncesBack
198.99K Популярность
#
IsraelStrikesIranBTCPlunges
30.62K Популярность
#
USIranTalksProgress
784.91K Популярность

Закрепить

Карта сайта

Популярные темы

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закрепить