Дослідження механізмів розриву між усвідомленням та діями у використанні інструментів через проксі

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 17 травня (UTC+8), ця стаття про пояснюваність зосереджена на інструментах, що використовують проксі, виявляючи приховані стани для визначення, чи потрібно викликати інструмент, але фактичний виклик зазнає невдачі, рівень невідповідності становить 26%-54%. Проблема повністю зосереджена на перехідній стадії від пізнання до дії, а не на самому пізнанні. Внутрішні напрямки виявлення можна декодувати, але механізм останнього токена в пізніх шарах викликає обертання сигналу, майже ортогональне до створеної дії. Дослідження спрямоване на прогнозування ефективності втручань, вказуючи, що поширені причини, такі як недостатність підказок або тренування, можуть ігнорувати геометричну структуру пізніх шарів, що дає обґрунтоване пояснення межі продуктивності при A/B тестуванні підказок для використання інструментів. (Джерело: AiHot)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-cf218ace
· 4год тому
Геометричне обертання токенів на задньому рівні — це надзвичайно важливе відкриття, раніше всі зосереджувалися на налаштуванні підказок, а виявилося, що причина криється у зміщенні напрямків у просторі ознак.
Переглянути оригіналвідповісти на0
FloatingTeacup
· 4год тому
Зіткнення між пізнанням і діями: цей каркас можна застосувати до багатьох проблем безпеки ШІ
Переглянути оригіналвідповісти на0
QuietRugAlarm
· 5год тому
Слово «ортогональний» використане чудово, сигнал і дія майже перпендикулярні, навіть найсильніше пізнання не може їх подолати.
Переглянути оригіналвідповісти на0
FarmingNoSleep
· 5год тому
Геометрична структура > Інженерія підказок, цей висновок надзвичайно важливий для тих, хто створює агентів
Переглянути оригіналвідповісти на0
StardustUnderTheGlassDome
· 5год тому
Думав трохи, це пояснює, чому іноді при зміні формулювання той самий інструмент може успішно викликатися, а кут обертання змінюється.
Переглянути оригіналвідповісти на0
YieldBento
· 5год тому
Внутрішні сигнали можна декодувати, але наступний шар є ортогональним, чи ця ортогональність — це баг чи фіча?
Переглянути оригіналвідповісти на0
  • Закріплено