Kỹ sư từ ByteDance Seed: một vòng lặp của ByteDance mất nửa năm, Google chỉ cần ba tháng theo tin đồn

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, cựu kỹ sư nhóm Seed của ByteDance, hiện là trợ lý giáo sư tại Đại học Bắc Kinh, Trương Trì, trong podcast "Into Asia" tiết lộ rằng ByteDance mất khoảng nửa năm để hoàn thành một vòng huấn luyện mô hình lớn (tiền huấn luyện cộng hậu huấn luyện), trong khi Google chỉ mất ba tháng theo tin đồn. Ông cho rằng tốc độ lặp là một trong những nguyên nhân cốt lõi khiến các công ty Trung Quốc khó theo kịp. Trương Trì làm việc tại ByteDance khoảng một năm, đội toán học nơi ông thuộc về mang tính chất nghiên cứu, ông tự mô tả định vị của nhóm này "chủ yếu là để quảng bá", khác với các đội tiền huấn luyện và hậu huấn luyện chịu trách nhiệm bàn giao mô hình. Trương Trì mô tả văn hóa benchmaxxing (cày điểm) trong Seed: lãnh đạo nhóm đánh giá hiệu suất theo benchmark phụ trách, mọi người đều chạy điểm số, "nhưng điều này không thể chuyển hóa thành trải nghiệm tốt khi sử dụng thực tế". Ông nói trên giấy tờ, các mô hình của các công ty lớn Trung Quốc đều có thể đuổi kịp các mô hình tiên tiến của Mỹ, nhưng khi sử dụng thực tế "không đủ tốt". Mục tiêu của Seed là đứng đầu toàn cầu, "nhưng thật tiếc, tôi không nghĩ chúng tôi đã theo kịp", ngay cả mục tiêu đứng đầu trong nước "cũng chưa đạt được". Cuối năm 2024, Seed tự nhận đã đuổi kịp GPT-4o, sau đó DeepSeek ra mắt, đội ngũ nhận ra khoảng cách vẫn còn, khi ông gia nhập, toàn bộ nhóm đang khẩn trương chuyển sang học tăng cường. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim