Đừng ngốc nghếch chất đống sức mạnh tính toán nữa! Nghiên cứu cho thấy mô hình lớn càng huấn luyện càng "cứng nhắc", tăng tham số cũng vô dụng.

robot
Đang tạo bản tóm tắt
ME AI tin tức, theo dõi từ Động Sát Beating, AI khi thời gian huấn luyện càng dài sẽ dần mất khả năng tiếp thu kiến thức mới (mất tính dẻo), cuối cùng càng huấn luyện càng cứng nhắc.
Nếu không khắc phục được tình trạng mất tính dẻo, các mô hình lớn sẽ mãi không thể học liên tục với chi phí thấp, mỗi lần cập nhật kiến thức chỉ có thể đặt toàn bộ dữ liệu lịch sử và dữ liệu mới cùng nhau huấn luyện lại, tiêu tốn sức mạnh tính toán khổng lồ.
Nghiên cứu mới nhất từ công ty AI khởi nghiệp Zyphra lần đầu tiên chứng minh rằng, việc tăng kích thước mô hình có thể làm chậm suy thoái, nhưng lợi ích biên giảm dần, chỉ dựa vào việc tăng tham số không thể chữa trị tận gốc tình trạng mất tính dẻo. Ngoại suy cho thấy, mô hình 1B tham số sẽ trở nên ngu ngốc sau khi huấn luyện 1,8 nghìn tỷ token, mô hình 7B sau 9 nghìn tỷ. Gây chấn động hơn nữa, ngay cả khi không chuyển đổi tác vụ, chỉ cho mô hình huấn luyện trên bộ dữ liệu hỗn hợp ổn định, tình trạng mất tính dẻo vẫn xảy ra.
Nghiên cứu chỉ ra, có ba nguyên nhân trực tiếp khiến mô hình lớn trở nên ngu ngốc: khối lượng tham số liên tục tăng theo quá trình huấn luyện, dưới cơ chế chuẩn hóa lớp (LayerNorm) cản trở dẫn truyền gradient; các neuron trong lớp MLP rơi vào trạng thái ngủ đông quy mô lớn (một số mô hình thậm chí có 95% neuron đi vào ngủ đông); các đầu chú ý bị tê liệt (chỉ nhìn chằm chằm vào một số ký tự cá biệt và sụp đổ) hoặc bỏ bê (phân bổ đều cho mọi ngữ cảnh).
Đối phó với các đặc điểm bệnh lý này, các phương pháp điều trị tiềm năng bao gồm hạn chế sự phình to tham số, định kỳ thực hiện "tái thiết lập thần kinh" để kích hoạt cưỡng bức các neuron ngừng hoạt động, và đưa nhiễu ngẫu nhiên vào cơ chế chú ý để buộc hiệu chỉnh. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận