128 chiếc A100 từ đầu để huấn luyện ra! ByteOpen-sourcing mô hình đa phương thức toàn diện 3B Lance

robot
Đang tạo bản tóm tắt
Thông tin ME News, ngày 19 tháng 5 (UTC+8), theo theo dõi của Động Trắc Beating, ByteDance Research chính thức mở mã nguồn mô hình đa phương thức nguyên bản Lance. Đây là một mô hình nhẹ chỉ có 3 tỷ tham số, hỗ trợ đồng thời hiểu, tạo và chỉnh sửa hình ảnh và video trong cùng một khung framework. Hiện tại, các mô hình thống nhất chủ đạo phụ thuộc nhiều vào việc mở rộng quy mô tham số hoặc sử dụng kiến trúc văn bản-ảnh, còn Lance thì theo đuổi con đường hợp tác với khả năng tính toán cực thấp. Nhóm phát triển đã huấn luyện mô hình hoàn toàn từ đầu và giảm tổng ngân sách tính toán cho toàn bộ chu kỳ huấn luyện xuống còn 128 GPU A100. Để giải quyết xung đột nội bộ giữa các modal và nhiệm vụ khác nhau, Lance đã thực hiện hai cách cô lập cứng trong kiến trúc: - Sử dụng kiến trúc chuyên gia hỗn hợp song song (MoE) xử lý chuỗi đa modal đan xen, đồng thời chia sẻ ngữ cảnh nền tảng, tách biệt đường dẫn tính toán hiểu và tạo. - Giới thiệu mã hóa vị trí xoay cảm ứng modal, trực tiếp giảm nhiễu tín hiệu giữa các token thị giác không đồng nhất của hình ảnh và video. Việc nén cực đoan khả năng tính toán không làm giảm giới hạn hiệu suất. Trong khi chỉ có 3 tỷ tham số kích hoạt, Lance dẫn đầu hầu hết các bài kiểm tra chuẩn về tạo và chỉnh sửa hình ảnh và video, qua đó thể hiện khả năng hợp tác đa nhiệm, cân bằng giữa tạo và hiểu ngữ nghĩa với chi phí thấp của mô hình thống nhất mở nguồn. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim