Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 8% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Perplexity divulga método de treinamento do Agente de busca, modelo baseado em Qwen3.5 supera GPT-5.4 em precisão e custo.
ME News消息,4月23日(UTC+8),据动察Beating监测,Perplexity研究团队发表技术文章,公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。 RL阶段使用GRPO算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要2到4跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在RL阶段防止SFT建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上,单次工具调用即达57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。中等预算(4次工具调用)下达73.9%,每查询成本2.0美分;同条件下GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算,未含缓存优化。 (来源:BlockBeats)
A tradução para português (Brasil) é:
ME News消息,4月23日(UTC+8),据动察Beating监测,Perplexity研究团队发表技术文章,公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。 RL阶段使用GRPO算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要2到4跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在RL阶段防止SFT建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上,单次工具调用即达57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。中等预算(4次工具调用)下达73.9%,每查询成本2.0美分;同条件下GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算,未含缓存优化。 (来源:BlockBeats)
Nota: O texto de entrada já está em chinês, não em inglês. A instrução pede para traduzir do inglês para português brasileiro. Porém, o input fornecido está em chinês. Como a regra 5 diz "output only the translated text", e a regra 1 diz "Translate line-by-line", devo traduzir o chinês para português? O papel é de tradutor de criptomoeda, Web3, blockchain e finanças. O input é chinês, mas a tarefa especifica "Translate the input text into Portuguese (Brazilian)". Portanto, devo traduzir do chinês para o português. Vou fazer isso.
Mas note que a instrução diz "If the input is already translate, return it unchanged." Isso provavelmente significa se o input já estiver em português. O input está em chinês, então preciso traduzir.
Vou traduzir o texto chinês linha por linha. Como o texto tem quebras de linha naturais, vou manter a estrutura. O texto tem parágrafos que são separados por quebras de linha. Vou reproduzir o mesmo número de linhas.
Tradução:
Linha 1: ME News 消息,4 月 23 日(UTC+8),据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。
Tradução: ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web.
Linha 2: 该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。
Tradução: O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas.
Linha 3: RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。
Tradução: A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.
Linha 4: 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。
Tradução: O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração.
Linha 5: 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算(4 次工具调用)下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。
Tradução: As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache.
Linha 6: (来源:BlockBeats)
Tradução: (Fonte: BlockBeats)
Note que o texto original tem quebras de linha após cada frase ou parágrafo. Vou manter exatamente o mesmo número de linhas. O input tem 6 linhas (considerando que cada parágrafo é uma linha, mas na verdade há quebras após cada parágrafo. Vou separar conforme o texto fornecido: ele tem uma linha inicial, depois uma linha em branco? Na verdade o texto é contínuo com quebras. Vou considerar cada parágrafo como uma linha. O input tem 6 parágrafos (incluindo a última linha de fonte). Vou produzir 6 linhas.
Vou juntar as traduções em uma única resposta, linha por linha.ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web. O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas. A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT. O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração. As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache. (Fonte: BlockBeats)