Estudo do mecanismo de desconexão entre o reconhecimento e a ação no uso de ferramentas proxy

robot
Geração do resumo em andamento
AIMPACT mensagem, 17 de maio (UTC+8), este artigo de interpretabilidade foca na ferramenta de uso de proxy, detectando estados ocultos que frequentemente identificam a necessidade de chamar a ferramenta, mas a chamada real falha, com uma taxa de não correspondência de 26%-54%. O problema está completamente concentrado na transição do reconhecimento para a ação, e não no reconhecimento em si. A direção de detecção interna pode ser decodificada, mas o mecanismo do último token das camadas posteriores faz o sinal girar, quase sendo ortogonal à ação gerada. A pesquisa visa prever a eficácia de intervenções, apontando que causas comuns como dicas ou treinamento insuficiente podem ignorar a estrutura geométrica das camadas posteriores, oferecendo uma explicação razoável para o limite de desempenho em testes A/B de dicas de uso de ferramentas. (Fonte: AiHot)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-cf218ace
· 5h atrás
A descoberta da rotação geométrica do token de camada posterior é muito crucial, antes todo mundo ficava ajustando a engenharia de prompts, mas na verdade o problema está na deslocação da direção no espaço de representação.
Ver originalResponder0
FloatingTeacup
· 5h atrás
Da cognição à ação, o gargalo na transformação, esse quadro pode ser aplicado a muitas questões de segurança de IA
Ver originalResponder0
QuietRugAlarm
· 6h atrás
A palavra "ortogonal" é usada de forma brilhante, sinal e ação são quase perpendiculares, e mesmo o reconhecimento mais forte não consegue superá-los.
Ver originalResponder0
FarmingNoSleep
· 6h atrás
Estrutura geométrica > Engenharia de prompts, essa conclusão é muito importante para quem trabalha com agentes
Ver originalResponder0
StardustUnderTheGlassDome
· 6h atrás
Pensei bem, isso explica por que às vezes uma mudança na formulação faz a mesma ferramenta conseguir chamar com sucesso, a perspectiva mudou.
Ver originalResponder0
YieldBento
· 6h atrás
O sinal interno pode ser decodificado, mas a ortogonalidade das camadas posteriores, esse design de ortogonalidade é um bug ou uma feature?
Ver originalResponder0
  • Fixado