Nhóm của He Kaiming ELF: Mô hình khuếch tán ngôn ngữ cuối cùng đã chạy thành công

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, nhóm của Hạ Khải Minh tại MIT đã phát hành mô hình khuếch tán ngôn ngữ ELF (Embedded Language Flows). Nó không theo đuổi con đường dự đoán token tiếp theo theo kiểu GPT nữa, mà thay vào đó đưa việc sinh văn bản vào không gian embedding liên tục, chỉ chuyển đổi trở lại thành token rời rạc ở bước cuối cùng.

Mô hình khuếch tán đã trở nên thành thạo trong sinh hình ảnh, nhưng áp dụng vào văn bản vẫn còn khá gượng gạo: hình ảnh vốn là tín hiệu liên tục tự nhiên, còn ngôn ngữ thì gồm các token rời rạc. Trước đây, nhiều mô hình khuếch tán liên tục cho văn bản, hoặc là liên tục đưa token vào trong quá trình sinh, hoặc là cần một bộ giải mã độc lập bổ sung. Cách làm của ELF sạch hơn: phần lớn các bước chỉ xử lý trong không gian vector liên tục, và bước cuối cùng dùng mạng chia sẻ trọng số để hoàn tất quá trình rời rạc hóa.

Kết quả thử nghiệm cũng gây ấn tượng mạnh. Trong đánh giá sinh ngẫu nhiên OpenWebText, ELF-B với 105 triệu tham số đạt khoảng 24.1 điểm Gen. PPL sau 32 bước lấy mẫu, vượt qua nhiều mô hình dựa trên khuếch tán ngôn ngữ rời rạc và liên tục. Quan trọng hơn, ELF-B chỉ sử dụng khoảng 45 tỷ token huấn luyện, trong khi các phương pháp đối chiếu thường vượt quá 500 tỷ, ít hơn khoảng một cấp độ về số lượng token huấn luyện. Kết quả này ít nhất cho thấy, con đường khuếch tán liên tục trong mô hình ngôn ngữ không bị “tắc nghẽn” bởi tính rời rạc của ngôn ngữ, các vấn đề trước đó có thể xuất phát từ giao diện mô hình và thiết kế quá trình lấy mẫu.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim