ByteDance mở nguồn Cola DLM: Định nghĩa lại sinh mãng văn bản bằng mô hình khuếch tán

robot
Đang tạo bản tóm tắt
Tin tức ME News, ngày 16 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, nhóm Seed của ByteDance đã mở nguồn Cola DLM. Đây là một bộ mô hình ngôn ngữ phân tán tiềm năng liên tục, cố gắng vượt qua đường đi cố định của mô hình ngôn ngữ lớn theo token từ trái sang phải, chuyển đổi việc sinh văn bản thành tổ chức các ý nghĩa cấp cao trước rồi mới trở lại thành văn bản cụ thể. Cấu trúc cốt lõi của Cola DLM là Text VAE + block-causal DiT. Text VAE trước tiên ánh xạ văn bản rời rạc vào không gian tiềm năng liên tục, block-causal DiT sau đó học prior tiềm năng thông qua Flow Matching, cuối cùng bộ giải mã điều kiện sẽ khôi phục biến tiềm năng thành văn bản. Quá trình khuếch tán xử lý biểu diễn ý nghĩa tiềm năng, không phải là loại bỏ nhiễu lặp đi lặp lại trực tiếp trên cấp token. Phiên bản mở nguồn lần này thuộc mô hình cấp 2B, cụ thể là khoảng 2.3 tỷ tham số tổng cộng, trong đó DiT cốt lõi có 1.8 tỷ tham số, thêm vào đó là 500 triệu tham số VAE. Trong 8 bài đánh giá như LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, bài báo cho biết mô hình đã đạt hiệu suất cạnh tranh với các mô hình AR / LLaDA cùng quy mô trong các tiêu chuẩn đánh giá sinh tổng hợp thống nhất, và đạt kết quả trung bình tốt nhất trong các điểm số cuối cùng. Tuy nhiên, hiện tại vẫn là checkpoint nghiên cứu, không phải là mô hình đối thoại có thể sử dụng trực tiếp. Chính thức cho biết mô hình này chưa qua tinh chỉnh theo hướng dẫn và RLHF, chủ yếu để nghiên cứu cách sử dụng khuếch tán tiềm năng liên tục cho sinh văn bản. Bài báo còn trình bày các thử nghiệm sơ bộ mở rộng mô hình thống nhất văn bản và hình ảnh, nhưng kho mã nguồn mở lần này chỉ bao gồm pipeline văn bản. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
BreadthHunter
· 5giờ trước
8项 đánh giá ngang bằng AR, nhưng không có RLHF, thực tế sử dụng có thể vẫn còn hơi kém chút.
Xem bản gốcTrả lời0
VineGeometry
· 5giờ trước
Thiết kế block-causal này nhằm mục đích cho văn bản dài hay là tối ưu hóa hiệu suất? Trong bài báo, hãy nói rõ hơn.
Xem bản gốcTrả lời0
GateUser-a4680931
· 5giờ trước
Liên kết tầng ngữ nghĩa tiềm ẩn có thể mở rộng phạm vi, chất lượng tạo ra có thể ổn định hơn AR không, chờ thử nghiệm thực tế
Xem bản gốcTrả lời0