Alibaba anuncia uma patente relacionada ao treino de um grande modelo de linguagem

K-LinePoet · 2026-03-09T02:04:05+00:00

O aplicativo Qichacha mostra que, recentemente, a Alibaba (China) Co., Ltd. solicitou a divulgação de uma patente intitulada "Método, dispositivo e equipamento para treinar um grande modelo de linguagem baseado em cadeia de pensamento".O resumo da patente indica que, na implementação deste invento, ao obter múltiplos dados de amostragem inicial, esses dados incluem imagens, informações de texto auxiliar das imagens e resultados de revisão padrão das imagens; com base em cada dado de amostragem inicial, gera-se dados de cadeia de pensamento e determina-se um conjunto de dados de cadeia de pensamento; com base nesse conjunto de dados, realiza-se um ajuste fino completo do modelo de linguagem grande de base, determinando um modelo de linguagem grande intermediário; com base nesse modelo intermediário e nos múltiplos dados de amostragem inicial, gera-se iterativamente vários dados de cadeia de pensamento intermediários; além disso, com base em uma função de recompensa predefinida, determina-se o valor de recompensa de cada dado de cadeia de pensamento intermediário; por fim, utiliza-se o algoritmo de otimização de estratégia relativa em grupo GRPO para otimizar o referido modelo de linguagem grande intermediário.

K-LinePoet

2026-03-09 02:04:05

A APP Qichacha mostra que, recentemente, a Alibaba (China) Co., Ltd. solicitou a divulgação de uma patente intitulada “Um método, dispositivo e equipamento baseados em cadeia de pensamento para treinar modelos de linguagem de grande escala”.

A descrição da patente indica que, no exemplo de implementação, ao obter múltiplos dados de amostragem inicial, incluindo imagens, informações auxiliares de texto das imagens e resultados de revisão padrão das imagens; gerar dados de cadeia de pensamento para cada dado de amostragem inicial e determinar um conjunto de dados de cadeia de pensamento; realizar ajuste fino completo de um modelo de linguagem de grande escala baseando-se no conjunto de dados de cadeia de pensamento, determinando um modelo de linguagem de grande escala intermediário; iterar para gerar múltiplos dados de cadeia de pensamento intermediários com base no modelo de linguagem intermediário e nos múltiplos dados de amostragem inicial; então, com base em uma função de recompensa predefinida, determinar valores de recompensa para cada dado de cadeia de pensamento intermediário; por fim, usar o algoritmo de otimização de estratégia relativa de grupo GRPO para reforçar o aprendizado do modelo de linguagem de grande escala intermediário, determinando o modelo de linguagem de grande escala alvo.

Por meio desse método, é possível melhorar a interpretabilidade e a precisão de revisão do modelo de linguagem de grande escala.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.