MIT Hạ Khải Minh nhóm đề xuất mô hình khuếch tán ngôn ngữ ELF (Embedded Language Flows), trong đó khuếch tán giảm nhiễu trong không gian liên tục, bước cuối cùng chuyển đổi vector trở lại token rời rạc, tránh sử dụng giải mã tự hồi hoặc giải mã độc lập. ELF chủ yếu dựa trên giảm nhiễu trong không gian liên tục, sử dụng trọng số chia sẻ để thực hiện phân rã rời rạc. Thí nghiệm cho thấy ELF-B 105M tham số, 32 bước lấy mẫu trong OpenWebText Gen. PPL khoảng 24.1, token huấn luyện chỉ khoảng 45B, so sánh với phương pháp thường vượt quá 500B. Điều này cho thấy, con đường khuếch tán liên tục của ngôn ngữ vẫn còn khả thi, vấn đề chủ yếu nằm ở giao diện mô hình và thiết kế lấy mẫu.

BlockBeatNews

2026-05-13 05:20:33

Đang tạo bản tóm tắt

Theo giám sát Beating, nhóm của Hạ Khải Minh tại MIT đã phát hành mô hình khuếch tán ngôn ngữ ELF (Embedded Language Flows). Nó không theo đuổi con đường dự đoán token tiếp theo theo kiểu GPT nữa, mà thay vào đó đưa việc sinh văn bản vào không gian embedding liên tục, chỉ chuyển đổi trở lại thành token rời rạc ở bước cuối cùng.

Mô hình khuếch tán đã trở nên thành thạo trong sinh hình ảnh, nhưng áp dụng vào văn bản vẫn còn khá gượng gạo: hình ảnh vốn là tín hiệu liên tục tự nhiên, còn ngôn ngữ thì gồm các token rời rạc. Trước đây, nhiều mô hình khuếch tán liên tục cho văn bản, hoặc là liên tục đưa token vào trong quá trình sinh, hoặc là cần một bộ giải mã độc lập bổ sung. Cách làm của ELF sạch hơn: phần lớn các bước chỉ xử lý trong không gian vector liên tục, và bước cuối cùng dùng mạng chia sẻ trọng số để hoàn tất quá trình rời rạc hóa.

Kết quả thử nghiệm cũng gây ấn tượng mạnh. Trong đánh giá sinh ngẫu nhiên OpenWebText, ELF-B với 105 triệu tham số đạt khoảng 24.1 điểm Gen. PPL sau 32 bước lấy mẫu, vượt qua nhiều mô hình dựa trên khuếch tán ngôn ngữ rời rạc và liên tục. Quan trọng hơn, ELF-B chỉ sử dụng khoảng 45 tỷ token huấn luyện, trong khi các phương pháp đối chiếu thường vượt quá 500 tỷ, ít hơn khoảng một cấp độ về số lượng token huấn luyện. Kết quả này ít nhất cho thấy, con đường khuếch tán liên tục trong mô hình ngôn ngữ không bị “tắc nghẽn” bởi tính rời rạc của ngôn ngữ, các vấn đề trước đó có thể xuất phát từ giao diện mô hình và thiết kế quá trình lấy mẫu.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.56M Phổ biến
#
IsraelStrikesIranBTCPlunges
46.57K Phổ biến
#
#DailyPolymarketHotspot
923.47K Phổ biến
#
JaneStreetReducesBitcoinETFHoldings
99.13K Phổ biến
#
TrumpVisitsChinaMay13
26.08M Phổ biến

Ghim

sơ đồ trang web

Nhóm của He Kaiming ELF: Mô hình khuếch tán ngôn ngữ cuối cùng đã chạy thành công

Chủ đề thịnh hành

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Ghim