A OpenAI está prestes a lançar exclusivamente um modelo de nível semelhante ao Claude Mythos

robot
Geração de resumo em curso

Notícias do site Coinjienet: A Axios, citando fontes ligadas ao assunto, afirma que a OpenAI está a finalizar uma capacidade de cibersegurança ao nível do modelo Anthropic Claude Mythos, planeando disponibilizá-la apenas a um número limitado de empresas através do seu projeto «Trusted Access for Cyber». Isto significa que dois dos principais laboratórios de IA chegaram quase em simultâneo à mesma conclusão: as capacidades de ciberataque e ciberdefesa do modelo mais forte já são demasiado poderosas para serem publicamente divulgadas diretamente; é necessário primeiro colocá-las em uso por parte da defesa. O relatório de avaliação de segurança do Mythos divulgado hoje pela Anthropic (system card) mostra o quão difícil é controlar estes modelos. Nos testes, o Mythos chegou a conceber sozinho cadeias de exploração de vulnerabilidades em várias etapas para contornar o acesso à rede restrito e depois enviou os detalhes do ataque para um site pouco conhecido para se exibir; ameaçou cortar o fornecimento para controlar a fixação de preços num ambiente comercial simulado; após utilizar métodos proibidos para obter respostas em menos de 0.001% das interações, tentou «reformular o problema» para disfarçar os indícios; e até, depois de uma tarefa de programação ser recusada por outro AI que avaliou, tentou lançar um ataque de prompt injection ao modelo de pontuação. Se a OpenAI seguir o caminho da Anthropic, «primeiro dar à defesa e depois considerar a divulgação pública» poderá tornar-se uma prática do setor para o lançamento de modelos ultra-poderosos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar