ByteDance Seed mã nguồn mở Cola DLM, là một bộ mô hình thực hiện phân tán văn bản ở tầng ngữ nghĩa tiềm ẩn. Text VAE ánh xạ văn bản vào không gian tiềm ẩn liên tục, block-causal DiT học tập prior tiềm ẩn thông qua Flow Matching, cuối cùng bộ giải mã điều kiện phục hồi biến tiềm ẩn thành văn bản. Tổng số tham số khoảng 2.3 tỷ (DiT 1.8 tỷ, VAE 500 triệu). Trong 8 bài đánh giá, cạnh tranh với các baseline AR/LLaDA cùng quy mô và đứng đầu, nhưng vẫn là checkpoint nghiên cứu, chưa qua tinh chỉnh theo hướng dẫn hoặc RLHF, hiện tại kho chứa chỉ bao gồm pipeline văn bản, tương lai có thể mở rộng sang văn bản-hình ảnh.

MeNews

2026-05-27 18:10:52

Đang tạo bản tóm tắt

Tin tức ME News, ngày 16 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, nhóm Seed của ByteDance đã mở nguồn Cola DLM. Đây là một bộ mô hình ngôn ngữ phân tán tiềm năng liên tục, cố gắng vượt qua đường đi cố định của mô hình ngôn ngữ lớn theo token từ trái sang phải, chuyển đổi việc sinh văn bản thành tổ chức các ý nghĩa cấp cao trước rồi mới trở lại thành văn bản cụ thể. Cấu trúc cốt lõi của Cola DLM là Text VAE + block-causal DiT. Text VAE trước tiên ánh xạ văn bản rời rạc vào không gian tiềm năng liên tục, block-causal DiT sau đó học prior tiềm năng thông qua Flow Matching, cuối cùng bộ giải mã điều kiện sẽ khôi phục biến tiềm năng thành văn bản. Quá trình khuếch tán xử lý biểu diễn ý nghĩa tiềm năng, không phải là loại bỏ nhiễu lặp đi lặp lại trực tiếp trên cấp token. Phiên bản mở nguồn lần này thuộc mô hình cấp 2B, cụ thể là khoảng 2.3 tỷ tham số tổng cộng, trong đó DiT cốt lõi có 1.8 tỷ tham số, thêm vào đó là 500 triệu tham số VAE. Trong 8 bài đánh giá như LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, bài báo cho biết mô hình đã đạt hiệu suất cạnh tranh với các mô hình AR / LLaDA cùng quy mô trong các tiêu chuẩn đánh giá sinh tổng hợp thống nhất, và đạt kết quả trung bình tốt nhất trong các điểm số cuối cùng. Tuy nhiên, hiện tại vẫn là checkpoint nghiên cứu, không phải là mô hình đối thoại có thể sử dụng trực tiếp. Chính thức cho biết mô hình này chưa qua tinh chỉnh theo hướng dẫn và RLHF, chủ yếu để nghiên cứu cách sử dụng khuếch tán tiềm năng liên tục cho sinh văn bản. Bài báo còn trình bày các thử nghiệm sơ bộ mở rộng mô hình thống nhất văn bản và hình ảnh, nhưng kho mã nguồn mở lần này chỉ bao gồm pipeline văn bản. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

9 thích

Phần thưởng
9
3
1
Retweed

Bình luận

Thêm một bình luận

BreadthHunter

· 5giờ trước

8项 đánh giá ngang bằng AR, nhưng không có RLHF, thực tế sử dụng có thể vẫn còn hơi kém chút.

Xem bản gốcTrả lời0

VineGeometry

· 5giờ trước

Thiết kế block-causal này nhằm mục đích cho văn bản dài hay là tối ưu hóa hiệu suất? Trong bài báo, hãy nói rõ hơn.

Xem bản gốcTrả lời0

GateUser-a4680931

· 5giờ trước

Liên kết tầng ngữ nghĩa tiềm ẩn có thể mở rộng phạm vi, chất lượng tạo ra có thể ổn định hơn AR không, chờ thử nghiệm thực tế

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.02M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.67K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.81K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Phổ biến
#
MicronMarketCapBreaks1Trillion
45.4K Phổ biến

Đã ghim

sơ đồ trang web

ByteDance mở nguồn Cola DLM: Định nghĩa lại sinh mãng văn bản bằng mô hình khuếch tán

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim