Thanh Hoa phát hành LCM: tương thích với tất cả các mô hình lớn SD, LoRA, plug-in, vv

2023-11-24 03:07:12

Nguồn: New Zhiyuan

Tác giả: Tan Weida

Edit: LRS buồn ngủ

Nguồn hình ảnh: Unbounded AI Generated Latent Consistency Models là một kiến trúc tạo hình ảnh với tốc độ tạo là điểm nhấn chính.

Không giống như các mô hình khuếch tán truyền thống yêu cầu nhiều lần lặp lại (chẳng hạn như Khuếch tán ổn định), LCM có thể đạt được khoảng 30 bước chỉ trong 1 đến 4 bước.

Được phát minh bởi Luo Simian và Tan Yiqin, sinh viên tốt nghiệp tại Viện Khoa học Thông tin Liên ngành của Đại học Thanh Hoa, LCM đã tăng tốc độ tạo ra sơ đồ Wensheng lên 5-10 lần và thế giới kể từ đó đã bước vào kỷ nguyên AI tạo ra thời gian thực.

LCM-LoRA:

Trang chủ dự án:

Khuếch tán ổn định杀手:LCM

Trước khi LCM ra đời, các nhóm khác nhau đã khám phá nhiều lựa chọn thay thế SD1.5 và SDXL theo nhiều hướng khác nhau.

Các dự án này có những đặc điểm riêng, nhưng tất cả chúng đều có những sai sót là không tương thích với LoRA và không hoàn toàn tương thích với hệ sinh thái Khuếch tán ổn định. Theo thứ tự thời gian, các mục quan trọng hơn là:

Tại thời điểm này, LCM-LoRA xuất hiện: LoRA được chưng cất thành LCM với SD1.5, SSD1B và SDXL sẽ mang lại khả năng tăng tốc thế hệ gấp 5 lần cho tất cả các mẫu SDXL và tương thích với tất cả các LoRA hiện có, đồng thời hy sinh một phần nhỏ chất lượng thế hệ; Dự án nhanh chóng nhận được sự hỗ trợ từ một số lượng lớn các plugin và bản phân phối trong hệ sinh thái Stable Diffusion.

LCM cũng xuất bản các kịch bản đào tạo, có thể hỗ trợ đào tạo các mô hình lớn LCM của riêng mình (như LCM-SDXL) hoặc LCM-LoRA, để đạt được cả chất lượng và tốc độ. Chỉ với một buổi đào tạo, bạn có thể tăng tốc lên đến 5 lần trong khi vẫn duy trì chất lượng xây dựng của mình.

Tại thời điểm này, hệ sinh thái LCM có nguyên mẫu thay thế hoàn toàn cho SD.

Kể từ ngày 22/11/2023, các dự án mã nguồn mở sau đây đã được hỗ trợ:

Các mục để thêm hỗ trợ cho kế hoạch:

Với sự phát triển dần dần của hệ sinh thái, LCM có tiềm năng thay thế hoàn toàn cho Stable Diffusion như một thế hệ hình ảnh mới bên dưới.

Triển vọng tương lai

Kể từ khi phát hành Stable Diffusion, chi phí tạo ảnh đã được tối ưu hóa chậm, và sự xuất hiện của LCM đã trực tiếp giảm chi phí tạo hình ảnh theo một mức độ lớn. Mỗi khi một công nghệ mang tính cách mạng xuất hiện, nó mang theo vô số cơ hội để định hình lại ngành công nghiệp. LCM có thể mang lại những thay đổi đáng kể cho cảnh quan công nghiệp ở ít nhất ba khía cạnh: sự biến mất của chi phí tạo hình ảnh, tạo video và tạo thời gian thực.

1. Chi phí tạo hình ảnh biến mất

Về phía sản phẩm To C, miễn phí thay vì tính phí. Bị hạn chế bởi chi phí cao của sức mạnh tính toán GPU, một số lượng lớn các dịch vụ đồ thị Wensheng do Midjourney đại diện đã chọn freemium làm mô hình kinh doanh của họ. LCM cho phép máy khách điện thoại di động, CPU PC, trình duyệt (WebAssembly) và sức mạnh tính toán CPU dễ dàng mở rộng linh hoạt hơn để đáp ứng nhu cầu sức mạnh tính toán của việc tạo hình ảnh trong tương lai. Các dịch vụ trả phí đơn giản như Midjourney sẽ được thay thế bằng các dịch vụ miễn phí chất lượng cao.

Trên máy chủ To B, nhu cầu giảm để tạo ra sức mạnh tính toán sẽ được thay thế bằng nhu cầu đào tạo sức mạnh tính toán tăng lên.

Nhu cầu về sức mạnh tính toán cho các dịch vụ tạo hình ảnh AI dao động rất nhiều ở các đỉnh và thung lũng, và thời gian nhàn rỗi của các máy chủ đã mua thường vượt quá 50%. Tính năng này đã thúc đẩy sự phát triển mạnh mẽ của một số lượng lớn GPU Function Compute, chẳng hạn như Replicate ở Hoa Kỳ và Alibaba Cloud ở Trung Quốc.

Về ảo hóa phần cứng, chẳng hạn như Rayvision và Tencent Cloud ở Trung Quốc, họ cũng đã tung ra các sản phẩm máy tính để bàn ảo liên quan đến đào tạo mô hình hình ảnh trong làn sóng. Khi sức mạnh thế hệ được ủy thác cho sức mạnh tính toán biên, máy khách hoặc CPU, dễ dàng mở rộng quy mô hơn, đồ họa AI sẽ được phổ biến trong các kịch bản ứng dụng khác nhau và nhu cầu về các mô hình hình ảnh tinh chỉnh sẽ tăng đáng kể. Trong lĩnh vực đồ họa, các dịch vụ đào tạo mô hình chuyên nghiệp, dễ sử dụng và theo chiều dọc sẽ trở thành người tiêu dùng chính của sức mạnh điện toán GPU đám mây trong giai đoạn tiếp theo.

2. Video Wensheng

Hiện tại, chi phí phát điện cực kỳ cao của video Wensheng hạn chế sự phát triển và phổ biến công nghệ, và card đồ họa cấp tiêu dùng chỉ có thể hiển thị ở tốc độ chậm từng khung hình. Một số dự án được đại diện bởi plug-in AnimateDiff WebUI đã ưu tiên hỗ trợ LCM, cho phép nhiều người tham gia vào dự án nguồn mở của Wensheng Video. Ngưỡng thấp hơn chắc chắn sẽ đẩy nhanh sự phổ biến và phát triển của video Wensheng.

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. Kết xuất theo thời gian thực

Sự gia tăng tốc độ đã dẫn đến rất nhiều ứng dụng mới đang mở rộng trí tưởng tượng của tất cả mọi người.

RT-LCM so với AR

Được dẫn dắt bởi RealTime LCM, lần đầu tiên tạo video thời gian thực ở khoảng 10 khung hình / giây đã đạt được trên GPU cấp tiêu dùng, điều này chắc chắn sẽ có tác động sâu rộng trong lĩnh vực AR.

Hiện nay, việc chụp và vẽ lại toàn bộ cảnh trong đường ngắm độ nét cao, độ trễ thấp đòi hỏi sức mạnh tính toán cực cao, vì vậy trước đây, các ứng dụng AR chủ yếu tập trung vào việc thêm các đối tượng mới và vẽ lại một số đối tượng ở độ nét thấp sau khi trích xuất các tính năng. LCM cho phép vẽ lại toàn bộ cảnh trong thời gian thực, với không gian không giới hạn cho trí tưởng tượng trong các trò chơi, phim tương tác, tương tác xã hội và hơn thế nữa.

Trong tương lai, bạn không cần phải xây dựng một cái mới, vì vậy bạn có thể đeo kính AR và đường phố sẽ ngay lập tức biến thành phong cách tương lai cyberpunk được chiếu sáng neon để người chơi khám phá, và khi bạn xem một bộ phim kinh dị tương tác tương lai, bạn có thể đeo kính AR và mọi thứ quen thuộc trong nhà bạn sẽ hòa quyện hoàn hảo vào cảnh, và những điều đáng sợ sẽ được ẩn sau cánh cửa phòng ngủ. Ảo và thực sẽ hợp nhất liền mạch, khiến việc phân biệt giữa thực và ảo ngày càng khó khăn. Và tất cả những điều này có khả năng có LCM ở phía dưới.

Kết xuất video RT-LCM

交互方式 - 所想即所得(Những gì bạn tưởng tượng là những gì bạn nhận được)

Giao diện người dùng chỉnh sửa hình ảnh thời gian thực, lần đầu tiên được sản xuất bởi Krea.ai và ilumine.ai, một lần nữa hạ thấp ngưỡng sáng tạo và mở rộng ranh giới sáng tạo, cho phép nhiều người hơn có được phản hồi thời gian thực về bức tranh cuối cùng trên cơ sở kiểm soát tốt.

Krea.ai chỉnh sửa hình ảnh thời gian thực

Chỉnh sửa hình ảnh thời gian thực

Phần mềm mô hình hóa + LCM khám phá một hướng mới của mô hình 3D, cho phép các nhà tạo mô hình 3D tiến thêm một bước trên cơ sở WYSIWYG và có được khả năng suy nghĩ những gì bạn nhận được.

Kết xuất mô hình không gian thời gian thực LCM

Bàn tay là thứ vô dụng nhất đối với con người vì chúng không bao giờ có thể theo kịp tốc độ của bộ não. Những gì bạn thấy là những gì bạn nhận được là quá chậm, và những gì bạn tưởng tượng là những gì bạn nhận được sẽ trở thành xu hướng chủ đạo của công việc sáng tạo trong tương lai.

Lần đầu tiên, LCM cho phép các bài thuyết trình bắt kịp với tốc độ tạo ra ý tưởng. Những cách tương tác mới tiếp tục xuất hiện và điểm cuối của cuộc cách mạng AIGC là giảm chi phí và ngưỡng kỹ thuật của sự sáng tạo xuống vô cùng gần bằng không. Bất kể ngành công nghiệp nào, những ý tưởng tốt sẽ đi từ khan hiếm đến thặng dư. LCM đưa chúng ta tiến thêm một bước nữa trong tương lai.

Chào mừng bạn bè quan tâm đến LCM tham gia nhóm LCM Trung Quốc:

Tài nguyên:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích