128 chiếc A100 từ đầu để huấn luyện ra! ByteOpen source mô hình đa phương thức toàn diện 3B Lance

Thông tin ME News, ngày 19 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, ByteDance Research chính thức mở nguồn mô hình đa phương thức nguyên bản Lance. Đây là một mô hình nhẹ chỉ có 3B tham số kích hoạt, hỗ trợ đồng thời hiểu, tạo và chỉnh sửa hình ảnh cùng video trong một khung framework duy nhất. Hiện tại, các mô hình thống nhất chủ đạo phụ thuộc nhiều vào việc mở rộng quy mô tham số hoặc sử dụng kiến trúc văn bản-ảnh, còn Lance thì theo đuổi con đường hợp tác với khả năng tính toán cực thấp. Nhóm phát triển đã huấn luyện mô hình hoàn toàn từ con số không, và giảm tổng ngân sách tính toán cho toàn bộ chu kỳ huấn luyện xuống còn 128 GPU A100. Để giải quyết xung đột nội bộ giữa các phương thức và nhiệm vụ khác nhau, Lance đã thực hiện hai cách cô lập cứng nhắc về kiến trúc: - Sử dụng kiến trúc chuyên gia hỗn hợp song luồng (MoE) để xử lý chuỗi đa phương thức đan xen, đồng thời chia sẻ ngữ cảnh nền tảng, tách biệt các đường dẫn tính toán hiểu và tạo. - Giới thiệu mã hóa vị trí xoay cảm ứng theo phương thức, trực tiếp giảm nhiễu tín hiệu giữa các token thị giác không đồng nhất của hình ảnh và video. Việc nén cực đoan về khả năng tính toán không làm giảm giới hạn hiệu suất. Trong khi chỉ có 3B tham số kích hoạt, Lance dẫn đầu hầu hết các bài kiểm tra chuẩn về tạo và chỉnh sửa hình ảnh cùng video, vượt qua các mô hình thống nhất mã nguồn mở hiện có, và đã chạy đa nhiệm hợp tác với số lượng tham số nhỏ để cân bằng tạo và hiểu ngữ nghĩa với chi phí thấp. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim