Google propose une méthode d’évaluation continue de l’ingénierie pour relever les défis d’évaluation en environnement de production des agents IA

robot
Création du résumé en cours

Nouvelles ME : le 4 avril (UTC+8). Récemment, GoogleCloudTech a publié un article indiquant qu’il n’est pas fiable d’évaluer des agents IA en production en s’appuyant sur des discussions manuelles et des impressions subjectives (c’est-à-dire les « vérifications d’ambiance »), et que cela peut conduire à une catastrophe. Selon cet article, la nature probabiliste de l’IA générative fait que de minuscules changements dans les invites ou dans les poids du modèle peuvent entraîner une dégradation significative des performances. Pour résoudre ce problème, l’article propose une approche d’ingénierie consistant à appliquer l’évaluation continue (CE). Cette méthode distingue deux modes pour l’ingénierie de l’IA : le mode d’exploration (en laboratoire) et le mode de défense (en usine). Le mode d’exploration se concentre sur la recherche du potentiel du modèle au moyen d’un petit nombre d’exemples et de vérifications d’ambiance ; le mode de défense, quant à lui, met l’accent sur la stabilité, en s’appuyant sur des évaluations basées sur des ensembles de données, un filtrage strict et des indicateurs automatisés pour s’assurer que le système répond aux objectifs de niveau de service (SLO). L’article avertit que de nombreuses équipes restent longtemps en mode d’exploration. L’article donne aussi l’exemple d’un système distribué de multi-agents (le « système du créateur de cours ») construit sur Cloud Run et le protocole Agent2Agent, pour montrer comment appliquer le mode de défense pour des déploiements IA de qualité production, fiables et extensibles, en s’appuyant sur les principes de séparation des préoccupations et des agents spécialisés (tels que le chercheur, le juge, le constructeur de contenu, le coordinateur). (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler