LangSmith запустив понад 30 шаблонів оцінювання, перевірка якості AI-агентів більше не вимагає починати з нуля

robot
Генерація анотацій у процесі
МЕ Новини, 17 квітня (UTC+8), за даними моніторингу Дунчжа Beating, платформа для розробки AI-агентів LangChain випустила дві оновлення своїх інструментів спостереження LangSmith: бібліотеку шаблонів оцінювачів та багаторазові оцінювачі. Оцінка «зручності» AI-агента є однією з найзайнятіших у процесі розробки. Агент може викликати правильний інструмент, але формат відповіді неправильний, одноповерховий діалог проходить нормально, але багатоповерховий збоїть, кінцева відповідь здається логічною, але проміжні кроки містять неправильну документацію. Розробникам потрібно встановлювати контрольні точки на рівнях окремих кроків, повного шляху, багатоповерхових діалогів, викликів конкретних інструментів, і кожен оцінювач проходить через процес написання підказок, калібрування за реальними даними, багаторазового налаштування, що зазвичай займає кілька тижнів з нуля. Зараз LangSmith пропонує понад 30 готових шаблонів, що охоплюють п’ять категорій: безпека та захист (виявлення ін’єкцій підказок, перевірка витоку особистої інформації, упередження та токсичність), якість відповіді (правильність, корисність, тон), траєкторія виконання (чи правильно пройшов агент кроки), аналіз поведінки користувачів (розподіл мовлення, сигнали задоволеності), мультимодальні (перевірка голосових та зображувальних виходів). Шаблони містять оптимізовані підказки для оцінки LLM та правила на основі коду для оцінювачів, які можна використовувати безпосередньо або налаштовувати, одночасно підходять для онлайн-моніторингу та офлайн-експериментів. Багаторазові оцінювачі вирішують управлінські питання на рівні організацій: нова вкладка Evaluators централізовано показує всі оцінювачі у робочій зоні, їх можна швидко прикріпити до нового проекту, оновлення підказок поширюється глобально, без необхідності підтримувати дублікати у кожному проекті. Вищезазначені шаблони синхронізовано з відкритим кодом і випущені разом з openevals v0.2.0, що додало підтримку мультимодальної оцінки. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • 7
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
VineGeometry
· 2год тому
Оцінка траєкторії — я раніше писав щось подібне самостійно, тепер, коли з’явиться офіційне рішення, можна буде перенести, щоб зекономити на обслуговуванні.
Переглянути оригіналвідповісти на0
GateUser-4bd1cc87
· 4год тому
Нарешті з’явилася єдина схема багаторівневої оцінки, що значно зменшить проблему різних стандартів у команді.
Переглянути оригіналвідповісти на0
MempoolDrifter
· 4год тому
Шаблон аналізу поведінки користувачів досить цікавий, нарешті можна систематично подивитися, як використовуються агентські системи.
Переглянути оригіналвідповісти на0
GateUser-5578154d
· 4год тому
Функція одноклікового підключення до нового проекту дуже зручна для нас, хто працює з кількома проектами одночасно.
Переглянути оригіналвідповісти на0
MistValleyFront
· 4год тому
Шаблони безпеки та захисту — це необхідність, перед запуском AI-агента саме цю частину найбільше хвилює.
Переглянути оригіналвідповісти на0
MorningGoldAsWavesCrashAgainst
· 4год тому
Вкладка Evaluators — цей вхідний пункт зроблений досить інтуїтивним, його легко знайти.
Переглянути оригіналвідповісти на0
PermissionedFury
· 4год тому
Відкритий код openevals v0.2.0 отримав хороші відгуки, спільне створення краще, ніж закриття дверей.
Переглянути оригіналвідповісти на0
GateUser-176c498f
· 4год тому
LangSmith ця оновлення дуже корисне, раніше написати evaluator було справжньою головоломкою, тепер просто використовуєш шаблон і економиш час
Переглянути оригіналвідповісти на0
  • Закріплено