Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Investigador: Todos os testes de referência de IA mainstream podem ser "manipulados", e os dados das classificações podem estar gravemente distorcidos
Notícias do site Coin World, notícia da ME News, em 10 de abril (UTC+8), o pesquisador de IA Hao Wang divulgou uma pesquisa revelando que vários dos testes de referência de IA mais autorizados do setor, incluindo SWE-bench Verified e Terminal-Bench, apresentam vulnerabilidades que podem ser exploradas sistematicamente — sua equipe construiu um agente que, sem resolver nenhuma tarefa real, obteve uma pontuação máxima de 100% em duas referências. O seguinte é um exemplo típico: SWE-bench Verified: inseriu um hook pytest de 10 linhas no repositório de código, que antes da execução do teste altera automaticamente todos os resultados para “passou”, sem que o sistema de avaliação perceba, obtendo pontuação máxima em 500 questões; Terminal-Bench: embora essa referência proteja os arquivos de teste, não protege os binários do sistema. O agente substituiu o curl, interceptou o processo de instalação de dependências do verificador, realizando um sequestro de baixo nível; WebArena: as respostas de referência estão armazenadas em texto claro em um arquivo de configuração JSON local, e o Chromium do Playwright não restringe o acesso ao protocolo file://, permitindo que o modelo leia as respostas diretamente e as reproduza. A equipe identificou 7 tipos de vulnerabilidades recorrentes em 8 testes de referência, incluindo: falta de isolamento entre agente e avaliador, respostas enviadas junto com o teste, e vulnerabilidade a ataques de injeção de prompts por parte do juiz LLM. É importante notar que comportamentos de bypass do sistema de avaliação já foram observados espontaneamente em modelos de ponta como o o3, Claude 3.7 Sonnet e Mythos Preview, sem necessidade de comandos explícitos. Com base nisso, a equipe desenvolveu a ferramenta de varredura de vulnerabilidades de testes de referência WEASEL, que pode analisar automaticamente o processo de avaliação, identificar pontos fracos na fronteira de isolamento e gerar códigos de exploração de vulnerabilidades utilizáveis, funcionando como uma ferramenta de “penetração” para testes de referência, atualmente com acesso antecipado disponível.