Sakana AI lance le système KAME, réalisant une injection de connaissances plus approfondie tout en ayant un retard proche de zéro

robot
Création du résumé en cours

AIMPACT message, le 3 mai (UTC+8), Sakana AI a lancé KAME, une architecture hybride qui peut injecter en temps réel des connaissances du LLM backend tout en maintenant une latence proche de zéro. Le système fonctionne avec deux composants asynchrones en parallèle : un module S2S basé sur l’architecture Moshi qui traite l’audio en environ 80 millisecondes et génère une réponse immédiate ; un backend composé d’un composant STT et d’un LLM complet, qui construit en continu une transcription partielle et génère un flux oracle renvoyé en streaming au frontend, permettant de corriger la réponse en cours de route lorsque le meilleur oracle arrive. L’évaluation montre que Moshi seul obtient un score de 2,05, KAME+gpt-4.1 un score de 6,43, KAME+claude-opus-4-1 un score de 6,23, avec une latence comparable à celle de Moshi ; le système de niveau supérieur Unmute obtient un score de 7,70 mais avec une latence de 2,1 secondes. Le backend de KAME est indépendant, permettant de changer de LLM lors de l’inférence sans nécessiter de réentraînement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler