Исследование механизма разрыва между осознанием и действиями при использовании инструментов и прокси

robot
Генерация тезисов в процессе
AIMPACT сообщение, 17 мая (UTC+8), эта статья о объяснимости, сосредоточенная на использовании инструментов через прокси, обнаруживает, что при обнаружении скрытых состояний модель часто распознает необходимость вызова инструмента, но фактический вызов не происходит, уровень несоответствия достигает 26%-54%.
Проблема полностью сосредоточена на переходной стадии между когнитивным восприятием и действием, а не на самом когнитивном процессе.
Внутренние направления обнаружения могут быть декодированы, но механизм последних токенов в поздних слоях вызывает вращение сигнала, практически ортогональное порождаемому действию.
Исследование направлено на прогнозирование эффективности вмешательств, указывая, что распространенные причины, такие как недостаточные подсказки или обучение, могут игнорировать геометрическую структуру поздних слоев, что дает разумное объяснение пределам производительности при A/B тестировании подсказок по использованию инструментов.
(Источник: AiHot)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-cf218ace
· 6ч назад
Обнаружение геометрического вращения токенов на последнем слое оказалось очень важным, раньше все зацикливались на настройке подсказок, а оказывается, причина в смещении направления в пространстве представлений.
Посмотреть ОригиналОтветить0
FloatingTeacup
· 6ч назад
Преодоление узкого места преобразования от осознания к действию — этот каркас можно применить к многим вопросам безопасности ИИ
Посмотреть ОригиналОтветить0
QuietRugAlarm
· 7ч назад
Слово «ортогональный» использовано мастерски, сигнал и действие почти перпендикулярны, даже самая сильная когнитивная способность не сможет их преодолеть.
Посмотреть ОригиналОтветить0
FarmingNoSleep
· 7ч назад
Геометрическая структура > инженерия подсказок, это заключение очень важно для тех, кто занимается агентами
Посмотреть ОригиналОтветить0
StardustUnderTheGlassDome
· 7ч назад
Я подумал, и это объясняет, почему иногда при использовании другого выражения тот же инструмент может успешно сработать, угол поворота изменился
Посмотреть ОригиналОтветить0
YieldBento
· 7ч назад
Внутренние сигналы можно декодировать, но последующие слои ортогональны,
эта особенность ортогональности — это баг или фича?
Посмотреть ОригиналОтветить0
  • Закреплено