Alibaba anuncia uma patente relacionada ao treino de um grande modelo de linguagem

A APP Qichacha mostra que, recentemente, a Alibaba (China) Co., Ltd. solicitou a divulgação de uma patente intitulada “Um método, dispositivo e equipamento baseados em cadeia de pensamento para treinar modelos de linguagem de grande escala”.

A descrição da patente indica que, no exemplo de implementação, ao obter múltiplos dados de amostragem inicial, incluindo imagens, informações auxiliares de texto das imagens e resultados de revisão padrão das imagens; gerar dados de cadeia de pensamento para cada dado de amostragem inicial e determinar um conjunto de dados de cadeia de pensamento; realizar ajuste fino completo de um modelo de linguagem de grande escala baseando-se no conjunto de dados de cadeia de pensamento, determinando um modelo de linguagem de grande escala intermediário; iterar para gerar múltiplos dados de cadeia de pensamento intermediários com base no modelo de linguagem intermediário e nos múltiplos dados de amostragem inicial; então, com base em uma função de recompensa predefinida, determinar valores de recompensa para cada dado de cadeia de pensamento intermediário; por fim, usar o algoritmo de otimização de estratégia relativa de grupo GRPO para reforçar o aprendizado do modelo de linguagem de grande escala intermediário, determinando o modelo de linguagem de grande escala alvo.

Por meio desse método, é possível melhorar a interpretabilidade e a precisão de revisão do modelo de linguagem de grande escala.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar