Mila tại ICLR 2026 trình bày 70 bài báo, bao gồm các lĩnh vực tiên tiến như hợp nhất mô hình và học đồ thị.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 23 tháng 4 (UTC+8), Mila thông báo các nhà nghiên cứu của họ sẽ trình bày 70 bài báo tại ICLR 2026 (Brazil). Điểm nổi bật trong ngày đầu tiên bao gồm: về hợp nhất và tinh chỉnh mô hình, DisTaC đạt được hợp nhất mô hình mạnh mẽ thông qua vector tác vụ điều kiện chưng cất, một nghiên cứu sử dụng lịch trình epsilon để giảm thiểu vấn đề chuyển giao không tối ưu khi tinh chỉnh mô hình tiền huấn luyện không mạnh mẽ, báo cáo miệng tiết lộ hiệu quả của chiến lược hợp nhất toàn cầu một lần trong học tập phi tập trung; trong lĩnh vực học đồ thị, GraphOmni đề xuất khung chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn trong các tác vụ lý thuyết đồ thị, một công trình khác làm rõ hiểu lầm về quá mượt của Transformer; về học tăng cường, SHAPO giới thiệu tối ưu hóa độ nhạy để khám phá an toàn, ARM-FM sử dụng mô hình nền tảng để tự động tạo phần thưởng máy, phương pháp học tăng cường ngoại tuyến phân rã giá trị phân cấp được áp dụng cho điều khiển toàn thân, tối ưu hóa chính sách gần bất đối xứng cải thiện khả năng suy luận của mô hình ngôn ngữ lớn thông qua nhà phê bình nhỏ; trong lĩnh vực mô hình sinh, Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators đề xuất phương pháp huấn luyện hồi quy hiệu quả, FALCON đạt được tính toán xác suất chính xác ít bước với dòng chảy liên tục, Contractive Diffusion Policies tăng cường tính ổn định của khuếch tán hành động thông qua lấy mẫu điểm số co lại; liên quan đến mô hình ngôn ngữ lớn: Landscape of Thoughts trực quan hóa quá trình suy luận, Model Collapse được định nghĩa lại là đặc điểm quên máy chứ không phải lỗi, Beyond Multi-Token Prediction thông qua tóm tắt tương lai tiền huấn luyện, Visual symbolic mechanisms khám phá xử lý ký hiệu của mô hình ngôn ngữ thị giác; các điểm nổi bật khác bao gồm bộ dữ liệu phát hiện tán cây nhiệt đới độ phân giải cao SelvaBox, siêu tổng quát hóa hiệu quả tính toán của bộ tối ưu hóa học tập µLO, thư viện mô-đun hiệu quả cho đồ thị theo thời gian TGM, và Robust Reward Modeling thông qua các quy tắc nhân quả cải thiện tính ổn định của mô hình phần thưởng. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim