StepAudio2.5ASR de Jieyue : introduction du mécanisme MTP pour accélérer, fenêtre 32K pour éliminer les coupures de transcription.

robot
Création du résumé en cours

ME News Message, 24 avril (UTC+8), selon la surveillance de Beating, Step-voice a publié un nouveau modèle de reconnaissance vocale automatique StepAudio 2.5 ASR, désormais entièrement disponible sur sa plateforme ouverte. Cette version introduit pour la première fois la technologie de prédiction multi-tokens (MTP) du modèle de langage étendu dans le domaine de la reconnaissance vocale, améliorant considérablement la vitesse d'inférence tout en réutilisant la fenêtre de contexte 32K du grand modèle, brisant la limitation du découpage et du collage traditionnel pour les transcriptions audio longues.

La reconnaissance vocale traditionnelle est limitée par le mécanisme autorégressif, qui doit générer les tokens un par un. StepAudio 2.5 ASR adopte l'architecture d'intégration profonde ASR+MTP-5 identique à celle de Step 3.5 Flash, prédisant plusieurs tokens candidats à la fois et les validant en parallèle. Selon les officiels, cette architecture augmente le débit d'inférence du modèle de 400 %, réduit la latence de 60 %, abaisse directement le coût d'inférence de 80 %, et atteint un pic d'inférence de 500 tokens/s.

Pour résoudre le problème de rupture de contexte causé par la solution courante « découpage-transcription-collage » dans l'industrie (par exemple, oublier le contexte de début en transcrivant la seconde moitié), le nouveau modèle, en réutilisant directement la fenêtre de contexte 32K, prend en charge la lecture unique de bout en bout d'audio complet d'une durée maximale de 30 minutes. Lors des tests d'entrée saturée de 30 minutes, le modèle n'a montré aucune dégradation de précision au fil du temps. Sur 10 ensembles de test open source autoritaires en chinois et en anglais (comme LibriSpeech), son taux d'erreur global est inférieur à celui de ses concurrents.

(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé