LangSmith запустив понад 30 шаблонів оцінювання, перевірка якості AI-агентів більше не вимагає починати з нуля

МЕ Новини, 17 квітня (UTC+8), за даними моніторингу Дунчжа Beating, платформа для розробки AI-агентів LangChain випустила дві оновлення своїх інструментів спостереження LangSmith: бібліотеку шаблонів оцінювачів та багаторазові оцінювачі. Оцінка «зручності» AI-агента є однією з найзайнятіших у процесі розробки. Агент може викликати правильний інструмент, але формат відповіді неправильний, одноповерховий діалог проходить нормально, але при багатоповерховому він збоїть, кінцева відповідь здається логічною, але проміжні кроки містять неправильну документацію. Розробникам потрібно встановлювати контрольні точки на рівнях окремих кроків, повного шляху, багатоповерхових діалогів, викликів конкретних інструментів, і кожен оцінювач проходить через процес написання підказок, калібрування за реальними даними, багаторазового налаштування, що зазвичай займає кілька тижнів з нуля. LangSmith тепер пропонує понад 30 готових шаблонів, що охоплюють п’ять категорій: безпека та захист (виявлення ін’єкцій підказок, перевірка витоку особистої інформації, упередження та токсичність), якість відповіді (правильність, корисність, тон), траєкторія виконання (чи правильно пройшов агент кроки), аналіз поведінки користувачів (розподіл мовлення, сигнали задоволеності), мультимодальні (перевірка голосових та зображувальних виходів). Шаблони містять оптимізовані підказки для оцінки LLM та правила на основі коду для оцінювачів, які можна використовувати безпосередньо або налаштовувати, одночасно підходять для онлайн-моніторингу та офлайн-експериментів. Багаторазові оцінювачі вирішують управлінські питання на рівні організацій: нова вкладка Evaluators централізовано показує всі оцінювачі у робочій зоні, їх можна швидко підключити до нового проекту, оновлення підказок поширюється глобально, без необхідності підтримувати дублікати у кожному проекті. Вищезгадані шаблони відкриті для спільного використання разом з релізом openevals v0.2.0, що додатково підтримує мультимодальну оцінку. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 12
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
DegenWithNotebook
· 4год тому
Бібліотека шаблонів оцінювачів + повторно використовувані оцінювачі, комбінація спрямована на підвищення ефективності розробки
Переглянути оригіналвідповісти на0
OutsiderOfZhiyuandao
· 4год тому
Моніторинг Beating досить швидкий, екосистема LangChain стає все більш активною.
Переглянути оригіналвідповісти на0
StargazerInTheWoods
· 5год тому
Ідея дизайну багаторазового оцінювача хороша, вона дозволяє уникнути дублювання роботи з створення нових коліс
Переглянути оригіналвідповісти на0
QuietValidator
· 5год тому
Порахувати з нуля тижні проти готових шаблонів — це трохи боляче.
Переглянути оригіналвідповісти на0
AirdropDreamsInAGlassBottle
· 5год тому
Збої у багатоколових діалогах — це надто реалістично, нарешті хтось серйозно вирішує цю проблему
Переглянути оригіналвідповісти на0
Don’tRushToDoubleItYet.
· 5год тому
Більше ніж 30 шаблонів скільки тижнів можна заощадити? Спершу подивлюся на реальний ефект
Переглянути оригіналвідповісти на0
MirrorBallPeeking
· 5год тому
Оновлення LangSmith дійсно влучило у болючу точку, оцінка AI-агентів занадто виснажлива
Переглянути оригіналвідповісти на0
  • Закріплено