L'activation manuelle est un peu gênante, mais la latence économisée est vraiment agréable

Voir l'original
CoinNetwork
Le message de Coinjie.com indique que le modèle de brouillon commence à se retirer, la capacité de décodage prédictif multi-token (mtp) commence à être utilisée pour l'inférence locale en front-end. La méthodemtp consiste à ajouter plusieurs têtes de prédiction légères dans le modèle principal, permettant au modèle de deviner à l'avance les tokens suivants et de les vérifier lui-même. Le modèle en amont a déjà fourni des actions, le rapport technique deepseek-v3 intègremtp dans l'objectif d'entraînement, ce qui indique que ce module peut être utilisé directement pour accélérer l'inférence. Les frameworks et outils d'inférence en aval commencent également à s'adapter, notamment llama.cpp, vllm et lm studio, les utilisateurs doivent télécharger des modèles supportantmtp et l'activer manuellement.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé