Ex-engenheiro da ByteDance Seed: Uma iteração da ByteDance leva seis meses, dizem que o Google leva apenas três meses.

robot
Geração do resumo em andamento

ME News消息,4月24日(UTC+8),据动察Beating监测,前字节跳动Seed团队工程师、现北京大学助理教授张驰在播客《Into Asia》中透露,字节跳动完成一轮大模型训练(预训练加后训练)需要约半年,而谷歌据传闻只需三个月。他认为迭代速度是中国公司追赶困难的核心原因之一。张驰在字节约一年,所在的数学团队偏研究性质,他自述该组的定位「更多是为了宣传」,与负责模型交付的预训练和后训练团队不同。张驰描述了Seed内部的benchmaxxing(刷分)文化:团队领导按负责的benchmark评估绩效,所有人都在冲分数,「但这不能转化为实际使用中的好体验」。他说纸面上中国大公司的模型都能追平美国前沿模型,但实际用起来「不够好」。Seed的目标是全球顶尖,「但很遗憾,我不认为我们追上了」,即使是国内第一的目标「也没有实现」。2024年底Seed自认追平GPT-4o,随后DeepSeek发布,团队意识到差距仍在,他加入时全组正紧急转向强化学习。(来源:BlockBeats)

Tradução:

ME News informa que, em 24 de abril (UTC+8), de acordo com o monitoramento do 动察 Beating, o ex-engenheiro da equipe Seed da ByteDance e atual professor assistente da Universidade de Pequim, Zhang Chi, revelou no podcast "Into Asia" que a ByteDance leva cerca de seis meses para concluir uma rodada de treinamento de modelo grande (pré-treinamento mais pós-treinamento), enquanto o Google supostamente leva apenas três meses. Ele acredita que a velocidade de iteração é uma das principais razões pelas quais as empresas chinesas têm dificuldade em alcançar. Zhang Chi trabalhou na ByteDance por cerca de um ano, e a equipe de matemática da qual fazia parte tinha uma natureza mais voltada à pesquisa. Ele afirmou que o posicionamento do grupo era "mais para propaganda", diferente das equipes de pré-treinamento e pós-treinamento responsáveis pela entrega de modelos. Zhang Chi descreveu a cultura interna de "benchmaxxing" (maximização de benchmarks) da Seed: os líderes da equipe avaliam o desempenho com base no benchmark pelo qual são responsáveis, e todos estão correndo atrás de pontuações, "mas isso não se traduz em uma boa experiência no uso real". Ele disse que, no papel, os modelos das grandes empresas chinesas conseguem igualar os modelos de ponta dos EUA, mas na prática "não são bons o suficiente". O objetivo da Seed era ser líder global, "mas infelizmente, não acredito que tenhamos alcançado", e nem mesmo o objetivo de ser o primeiro na China "foi realizado". No final de 2024, a Seed achava que havia igualado o GPT-4o, mas logo após o lançamento do DeepSeek, a equipe percebeu que a diferença ainda existia. Quando ele entrou, todo o grupo estava migrando com urgência para o aprendizado por reforço. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado