Thị giác và ngôn ngữ hoàn toàn tách biệt, có nghĩa là trong tương lai, tương tác người-máy có thể trở thành hình thức đối thoại thuần túy, phương thức tương tác sẽ thay đổi hoàn toàn.

Xem bản gốc
CoinNetwork
Thông báo từ CoinWorld, AI Yí đã chỉ ra trong podcast Latent Space rằng các mô hình tạo video và hình ảnh hiện tại không thực sự hiểu thế giới vật lý, mô hình khuếch tán về bản chất chỉ là một trình kết xuất pixel không có khả năng nhận thức vật lý. Lấy ví dụ từ mô hình Cosmos của Nvidia, mô hình khuếch tán cốt lõi chịu trách nhiệm kết xuất hình ảnh chỉ có 7 tỷ tham số, trong khi trung tâm trí tuệ thực sự là do mô hình ngôn ngữ lớn (LLM) đảm nhận vai trò viết lại các từ khóa gợi ý. Chất lượng và mức độ phù hợp của video cuối cùng gần như hoàn toàn phụ thuộc vào chất lượng viết lại các từ khóa của mô hình ngôn ngữ, chứ không phải mô hình khuếch tán. Sự tách rời giữa thị giác và ngôn ngữ này báo hiệu rằng giao tiếp người-máy sẽ bước vào một cuộc cách mạng hoàn toàn mới.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim