Prime Intellect ambiente de agentes inteligentes de código aberto que evoluem por si próprios: permite que a IA "luta de poder" gerando mais de 8000 ferramentas de teste

AIMPACT mensagem, 19 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a Prime Intellect anunciou a abertura do ambiente de treino de agentes inteligentes general-agent, um ambiente totalmente sintético que pode evoluir por si próprio. O foco desta publicação é transformar a geração de tarefas numa partida de dois jogadores: um sintetizador e um solucionador que se enfrentam alternadamente, tendo atualmente uma grande base de dados de estado que inclui 4504 tarefas e mais de 8000 ferramentas únicas. Este quadro começa com tarefas simples de sementes, dividindo-as em cinco níveis de dificuldade, de t0 a t4, através de nove estratégias como restrições condicionais, comandos com ruído, acoplamento entre entidades, entre outros. O sintetizador é responsável por desenhar tarefas com uma base de dados, ferramentas de interação e funções de validação, enquanto o solucionador tenta completar as tarefas. Apenas as tarefas cuja taxa de sucesso se encontra numa faixa de dificuldade específica são preservadas, sendo o nível mais difícil usado como semente para a próxima fase de evolução. Testes oficiais mostraram que, apenas com 4400 trajetórias geradas neste ambiente, ao fazer fine-tuning de um modelo de 30B de parâmetros, a precisão na chamada de ferramentas no teste de referência BFCL aumentou de 18,9% para 52,3%. Este mecanismo permite que o modelo se liberte da dependência de conjuntos de dados estáticos anotados manualmente. Através de um jogo direto entre modelos, o sistema consegue gerar continuamente dados de treino com dificuldades controláveis e com validação semântica. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado