Quan điểm: Chưng cất API chỉ là bước đệm cho Reinforcement Learning, GLM 5.2 tự chủ trong việc tự cập nhật có thể hoàn toàn thoát khỏi sự phụ thuộc vào mô hình của Mỹ

ME AI Tin nhắn, theo giám sát Beating, kỹ sư phần mềm TPU của Google Patrick Toulme chỉ ra rằng, có sự hiểu lầm về việc GLM 5.2 dựa vào chưng cất để sánh bằng Opus. Khó khăn trong việc huấn luyện các mô hình lớn cho nhiệm vụ mã hóa trí thông minh là "bế tắc đạo hàm zero", tức là nếu mô hình không thể tạo ra đường dẫn hoạt động đúng trong giai đoạn đầu, học tăng cường sẽ không thể nhận tín hiệu đạo hàm để bắt đầu cập nhật tham số. Vai trò của việc chưng cất Claude hoặc GPT-5.5 chỉ đơn giản là cung cấp câu trả lời khởi đầu để vượt qua bế tắc đạo hàm zero trong giai đoạn khởi động lạnh. Một khi mô hình vượt qua ngưỡng khởi động lạnh, sự tăng trưởng hiệu suất sau đó sẽ không còn phụ thuộc vào chưng cất nữa, mà hoàn toàn dựa vào thuật toán leo núi của học tăng cường để tự tiến hóa. Toulme nhấn mạnh rằng, GLM 5.2 đã có khả năng tự tạo ra đường dẫn thành công, hoàn toàn có thể tự tiến hóa qua học tăng cường để đạt cấp độ cao hơn, loại bỏ hoàn toàn sự phụ thuộc vào các mô hình lớn của Mỹ. Người sáng lập Redis, Salvatore Sanfilippo, bổ sung khả năng của một con đường khác: mặc dù việc đưa mô hình có khả năng cao vào chế độ suy luận (chưng cất) để có tín hiệu RL tốt hơn rất hữu ích, nhưng thực tiễn của DeepSeek R0 đã chứng minh rằng, ngay cả trong trường hợp khởi động lạnh hoàn toàn không có chưng cất, học tăng cường vẫn có thể tự vận hành và đạt được đột phá. Đồng thời, ông cho rằng, nếu cần vượt qua ngưỡng khởi động lạnh, việc phát triển các mô hình lớn hoàn toàn có thể bắt đầu bằng việc tinh chỉnh các mô hình nguồn mở trong nước như DeepSeek-v3.2, thay vì phải dựa vào API của Mỹ. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim