Ex ingeniero de ByteDance Seed: ByteDance tarda medio año en una iteración, se rumorea que Google solo necesita tres meses.

robot
Generación de resúmenes en curso
ME News消息,4月24日(UTC+8),据动察Beating监测,前字节跳动Seed团队工程师、现北京大学助理教授张驰在播客《Into Asia》中透露,字节跳动完成一轮大模型训练(预训练加后训练)需要约半年,而谷歌据传闻只需三个月。他认为迭代速度是中国公司追赶困难的核心原因之一。张驰在字节约一年,所在的数学团队偏研究性质,他自述该组的定位「更多是为了宣传」,与负责模型交付的预训练和后训练团队不同。张驰描述了Seed内部的benchmaxxing(刷分)文化:团队领导按负责的benchmark评估绩效,所有人都在冲分数,「但这不能转化为实际使用中的好体验」。他说纸面上中国大公司的模型都能追平美国前沿模型,但实际用起来「不够好」。Seed的目标是全球顶尖,「但很遗憾,我不认为我们追上了」,即使是国内第一的目标「也没有实现」。2024年底Seed自认追平GPT-4o,随后DeepSeek发布,团队意识到差距仍在,他加入时全组正紧急转向强化学习。(来源:BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado