Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Với một cái kéo và kéo, bông hồng trở nên sống động! Google đề xuất động lực hình ảnh tổng quát và mọi thứ sẽ tồn tại kể từ bây giờ
Nguồn gốc: Xinzhiyuan
Hãy nhìn xem, chỉ cần kéo nhẹ, bông hồng sẽ bắt đầu chuyển động.
Cuối cùng, nó đã được triển khai và thậm chí có thể tạo ra một vòng lặp video vô tận bằng cách tương tác với một hình ảnh duy nhất.
Trong tương lai, trí tưởng tượng của nghệ sĩ sẽ không còn bị giới hạn bởi những khuôn khổ truyền thống và mọi thứ sẽ có thể thực hiện được trong không gian hình ảnh năng động này.
Mọi thứ trong ảnh đều trở nên sống động
Sự chuyển động của mọi thứ trên thế giới là đa phương thức.
Bộ quần áo treo ngoài sân đung đưa theo gió.
Nhấc một bức ảnh lên, các nhà nghiên cứu có thể tưởng tượng nó chuyển động như thế nào khi bức ảnh được chụp.
Với sự phát triển hiện nay của các mô hình tổng quát, đặc biệt là các mô hình khuếch tán, có thể mô hình hóa các phân phối rất phong phú và phức tạp.
Điều này làm cho nhiều ứng dụng mà trước đây không thể thực hiện được, chẳng hạn như tạo ra các hình ảnh thực tế tùy ý từ văn bản. Ngoài việc hữu ích trong trường hình ảnh, mô hình khuếch tán còn có thể được sử dụng để mô hình hóa trường video.
Mô hình được huấn luyện dựa trên quỹ đạo chuyển động được trích xuất tự động từ một số lượng lớn chuỗi video thực.
Dựa trên hình ảnh đầu vào, mô hình được đào tạo dự đoán “kết cấu chuyển động ngẫu nhiên thần kinh”: một tập hợp các hệ số chuyển động cơ bản mô tả quỹ đạo tương lai của mỗi pixel.
Sau đó, một mô hình khuếch tán được sử dụng để dự đoán “kết cấu chuyển động ngẫu nhiên thần kinh.” Mô hình này chỉ tạo ra các hệ số cho một tần số tại một thời điểm nhưng phối hợp các dự đoán này trên các dải tần số khác nhau.
Kết cấu không gian tần số thu được có thể được chuyển đổi thành các quỹ đạo chuyển động pixel đường dài dày đặc, có thể được sử dụng để tổng hợp các khung hình trong tương lai và chuyển đổi hình ảnh tĩnh thành hình ảnh động thực tế.
Giới thiệu công nghệ
Dựa trên một hình ảnh duy nhất
Hệ thống được các nhà nghiên cứu xây dựng bao gồm hai mô-đun: “mô-đun dự đoán hành động” và “mô-đun kết xuất dựa trên hình ảnh”.
Đầu tiên, các nhà nghiên cứu sử dụng “mô hình khuếch tán tiềm ẩn” làm hình ảnh đầu vào
Trong bước thứ hai, phép biến đổi Fourier rời rạc nghịch đảo được sử dụng để chuyển đổi kết cấu chuyển động ngẫu nhiên được dự đoán thành một chuỗi các trường dịch chuyển chuyển động.
Các trường dịch chuyển chuyển động này sẽ được sử dụng để xác định vị trí của từng pixel đầu vào ở mỗi bước thời gian trong tương lai.
Với các trường chuyển động được dự đoán này, mô-đun kết xuất của các nhà nghiên cứu sử dụng kỹ thuật kết xuất dựa trên hình ảnh để chọn các đặc điểm mã hóa từ hình ảnh RGB đầu vào và giải mã các đặc điểm đã chọn này thành các khung đầu ra thông qua mạng tổng hợp hình ảnh.
Kết cấu chuyển động ngẫu nhiên thần kinh
kết cấu chuyển động
Trong nghiên cứu trước đây, kết cấu chuyển động đã xác định một loạt bản đồ dịch chuyển 2D thay đổi theo thời gian.
Để tạo khung tương lai tại thời điểm t, có thể sử dụng bản đồ dịch chuyển tương ứng, từ
Như đã được chứng minh trước đây trong nghiên cứu đồ họa máy tính, nhiều chuyển động tự nhiên, đặc biệt là chuyển động dao động, có thể được mô tả là sự chồng chất của một tập hợp nhỏ các bộ dao động điều hòa, được biểu thị bằng các tần số, biên độ và pha khác nhau.
Một cách để tạo ra tính ngẫu nhiên trong chuyển động là tích hợp các trường nhiễu. Nhưng như nghiên cứu trước đây đã chỉ ra, việc thêm nhiễu ngẫu nhiên trực tiếp vào miền không gian và thời gian của các trường chuyển động được dự đoán thường dẫn đến hình ảnh động không thực tế hoặc không ổn định.
Hơn nữa, việc sử dụng kết cấu chuyển động trong miền thời gian được xác định ở trên có nghĩa là các trường dịch chuyển T 2D cần được dự đoán để tạo ra phân đoạn video chứa khung T. Để tránh dự đoán biểu diễn đầu ra lớn như vậy, nhiều phương pháp hoạt hình trước đó tạo khung hình video tự động hoặc dự đoán độc lập từng khung hình đầu ra trong tương lai thông qua việc nhúng tạm thời bổ sung.
Tuy nhiên, cả hai chiến lược đều không đảm bảo rằng các khung hình video được tạo nhất quán về mặt thời gian trong thời gian dài và cả hai đều có thể tạo ra các video bị lệch hoặc lệch theo thời gian.
Để giải quyết các vấn đề trên, các nhà nghiên cứu biểu diễn kết cấu chuyển động trên mỗi pixel của cảnh đầu vào trong miền tần số (tức là quỹ đạo chuyển động hoàn chỉnh của tất cả các pixel) và hình thành vấn đề dự đoán chuyển động dưới dạng chuyển đổi hình ảnh sang hình ảnh đa phương thức nhiệm vụ.
Các nhà nghiên cứu đã sử dụng mô hình khuếch tán tiềm ẩn (LDM) để tạo ra kết cấu chuyển động ngẫu nhiên bao gồm phổ chuyển động 2D kênh 4K, trong đó K << T là số tần số được mô hình hóa và ở mỗi tần số, các nhà nghiên cứu cần bốn đại lượng vô hướng để biểu thị các hệ số Fourier phức tạp theo chiều x và y.
Hình ảnh dưới đây cho thấy các kết cấu chuyển động ngẫu nhiên thần kinh này.
Để kiểm tra giả thuyết này, các nhà nghiên cứu đã tính toán phổ công suất trung bình của chuyển động được trích xuất từ 1.000 video clip thực dài 5 giây được lấy mẫu ngẫu nhiên. Như trong hình bên trái bên dưới, nguồn điện chủ yếu tập trung vào các thành phần tần số thấp.
Trong thực tế, các nhà nghiên cứu nhận thấy rằng hệ số Fourier K = 16 đầu tiên đủ để tái tạo trung thực các chuyển động tự nhiên nguyên bản trong nhiều video và cảnh thực.
Sử dụng mô hình khuếch tán để dự đoán hành động
Các nhà nghiên cứu đã chọn mô hình khuếch tán tiềm ẩn (LDM) làm cốt lõi của mô-đun dự đoán hành động của các nhà nghiên cứu vì LDM có hiệu quả tính toán cao hơn mô hình khuếch tán không gian pixel trong khi vẫn duy trì chất lượng tạo ra.
Một LDM tiêu chuẩn chủ yếu bao gồm hai mô-đun:
Bộ mã hóa tự động biến thiên (VAE) nén hình ảnh đầu vào vào không gian tiềm ẩn thông qua bộ mã hóa z = E(I), sau đó tái tạo lại đầu vào từ các đặc điểm tiềm ẩn thông qua bộ giải mã I = D(z).
Một mô hình khuếch tán dựa trên U-Net, học cách khử nhiễu lặp đi lặp lại các tính năng tiềm ẩn bắt đầu từ nhiễu ngẫu nhiên Gaussian.
Quá trình đào tạo của các nhà nghiên cứu không được áp dụng cho hình ảnh đầu vào mà cho các kết cấu hành động ngẫu nhiên từ các chuỗi video thực, được mã hóa và sau đó khuếch tán n bước trong một lịch trình phương sai được xác định trước để tạo ra các biến tiềm ẩn nhiễu zn.
Chuẩn hóa thích ứng tần số
Các nhà nghiên cứu đã quan sát thấy một vấn đề trong đó kết cấu hành động ngẫu nhiên có đặc tính phân bố tần số cụ thể. Như được hiển thị trong bảng bên trái của hình ảnh trên, biên độ kết cấu chuyển động của các nhà nghiên cứu dao động từ 0 đến 100 và giảm dần theo cấp số nhân khi tần số tăng.
Vì các mô hình khuếch tán yêu cầu giá trị đầu ra trong khoảng từ 0 đến 1 để huấn luyện và khử nhiễu ổn định nên các nhà nghiên cứu phải chuẩn hóa hệ số S được trích xuất từ video thực trước khi huấn luyện với chúng.
Nếu các nhà nghiên cứu chia tỷ lệ độ lớn của các hệ số S thành [0,1] dựa trên chiều rộng và chiều cao của hình ảnh thì hầu như tất cả các hệ số sẽ gần bằng 0 ở tần số cao hơn, như thể hiện trong hình trên (phải).
Các mô hình được đào tạo trên dữ liệu như vậy có thể tạo ra các hành động không chính xác vì trong quá trình suy luận, ngay cả các lỗi dự đoán nhỏ cũng có thể dẫn đến lỗi tương đối lớn sau khi không chuẩn hóa, khi S được chuẩn hóa có độ lớn của hệ số rất gần bằng 0.
Để giải quyết vấn đề này, các nhà nghiên cứu đã sử dụng một kỹ thuật chuẩn hóa thích ứng tần số đơn giản nhưng hiệu quả. Cụ thể, trước tiên các nhà nghiên cứu đã chuẩn hóa hệ số Fourier ở mỗi tần số một cách độc lập dựa trên số liệu thống kê được tính toán từ tập huấn luyện.
Khử nhiễu phối hợp tần số
Một cách đơn giản để dự đoán kết cấu hành động ngẫu nhiên S với dải tần K là xuất ra một tenxơ có kênh 4K từ U-Net khuếch tán tiêu chuẩn.
Tuy nhiên, việc huấn luyện một mô hình để tạo ra số lượng kênh lớn như vậy thường tạo ra kết quả đầu ra quá mượt mà và không chính xác.
Một cách tiếp cận khác là dự đoán biểu đồ phổ hành động ở từng tần số riêng lẻ một cách độc lập bằng cách đưa các tần số nhúng bổ sung vào LDM, nhưng điều này dẫn đến những dự đoán không liên quan trong miền tần số và do đó các hành động không thực tế.
Do đó, các nhà nghiên cứu đã đề xuất chiến lược khử nhiễu phối hợp theo tần số như trong hình bên dưới. Cụ thể, với hình ảnh đầu vào I0, trước tiên chúng tôi huấn luyện LDM để dự đoán bản đồ kết cấu hành động ngẫu nhiên với bốn kênh cho mỗi tần số riêng lẻ, trong đó chúng tôi đưa các phần nhúng tần số bổ sung vào LDM cùng với các phần nhúng bước thời gian trong mạng.
Các nhà nghiên cứu mô tả thêm cách hiển thị một khung hình tại thời điểm t trong tương lai bằng cách sử dụng kết cấu chuyển động ngẫu nhiên S được dự đoán cho hình ảnh đầu vào I0 nhất định. Đầu tiên, các nhà nghiên cứu sử dụng miền thời gian nghịch đảo FFT (Biến đổi Fourier nhanh) để tính toán trường quỹ đạo chuyển động tại mỗi điểm pixel p
Chúng tôi cùng đào tạo mạng tổng hợp và trích xuất tính năng với các khung bắt đầu và khung đích được lấy mẫu ngẫu nhiên từ video thực, trong đó chúng tôi sử dụng trường luồng ước tính từ I0 đến It để làm sai lệch các tính năng được mã hóa của I0 và sử dụng tổn thất nhận thức VGG để dự đoán ˆNó thực hiện giám sát .
Các ứng dụng mở rộng hơn nữa
Các nhà nghiên cứu đã chứng minh thêm ứng dụng thêm hiệu ứng động vào một hình ảnh tĩnh duy nhất bằng cách sử dụng quy trình biểu diễn chuyển động và hoạt ảnh do các nhà nghiên cứu đề xuất.
Hình ảnh thành video
Hệ thống của các nhà nghiên cứu tạo hoạt ảnh cho một hình ảnh tĩnh bằng cách trước tiên dự đoán kết cấu chuyển động ngẫu nhiên thần kinh từ hình ảnh đầu vào và bằng cách áp dụng mô-đun kết xuất dựa trên hình ảnh của nhà nghiên cứu vào trường dịch chuyển chuyển động bắt nguồn từ kết cấu chuyển động ngẫu nhiên.
Bởi vì chúng tôi đã mô hình hóa chuyển động của cảnh một cách rõ ràng, điều này cho phép chúng tôi tạo các video chuyển động chậm bằng cách nội suy tuyến tính các trường dịch chuyển chuyển động và phóng to (hoặc thu nhỏ) chuyển động hoạt hình bằng cách điều chỉnh biên độ của các hệ số kết cấu chuyển động ngẫu nhiên được dự đoán.
** Vòng lặp liền mạch **
Đôi khi, việc tạo video có chuyển động lặp liền mạch sẽ rất hữu ích, nghĩa là không có sự gián đoạn về hình thức hoặc chuyển động giữa phần đầu và phần cuối của video.
Thật không may, rất khó để tìm được một tập hợp lớn các video lặp liền mạch. Do đó, các nhà nghiên cứu đã nghĩ ra một phương pháp sử dụng mô hình khuếch tán chuyển động của các nhà nghiên cứu, vốn đã được huấn luyện trên các video clip không lặp lại thông thường, để tạo ra các video lặp lại liền mạch.
Lấy cảm hứng từ nghiên cứu gần đây về chỉnh sửa hình ảnh có hướng dẫn, phương pháp tiếp cận của các nhà nghiên cứu là kỹ thuật tự hướng dẫn chuyển động sử dụng các ràng buộc vòng lặp rõ ràng để hướng dẫn quá trình lấy mẫu khử nhiễu chuyển động.
Cụ thể, trong mỗi bước khử nhiễu lặp đi lặp lại của giai đoạn suy luận, các nhà nghiên cứu đã đưa vào một tín hiệu hướng dẫn chuyển động bổ sung cùng với hướng dẫn không có bộ phân loại tiêu chuẩn, trong đó chúng tôi buộc mỗi pixel phải ở vị trí khung hình bắt đầu và kết thúc và Tốc độ càng giống nhau càng tốt.
Tạo hoạt ảnh tương tác từ một hình ảnh
Phổ chuyển động không gian hình ảnh trong video được quan sát của một vật thể dao động gần đúng với cơ sở phương thức rung động vật lý của vật thể.
Các hình dạng phương thức nắm bắt động lực dao động của một vật thể ở các tần số khác nhau, do đó, có thể sử dụng các phép chiếu không gian hình ảnh của các kiểu rung của vật thể để mô hình hóa phản ứng của vật thể đối với một lực do người dùng xác định, chẳng hạn như chọc hoặc kéo.
Do đó, các nhà nghiên cứu đã sử dụng một kỹ thuật phân tích phương thức đã được nghiên cứu trước đó, kỹ thuật này giả định rằng chuyển động của một vật thể có thể được giải thích bằng sự chồng chất của một tập hợp các bộ cộng hưởng.
Điều này cho phép các nhà nghiên cứu viết trường dịch chuyển chuyển động hai chiều trong không gian hình ảnh của phản ứng vật lý của đối tượng dưới dạng tổng trọng số của các hệ số phổ Fourier và tọa độ phương thức phức tạp của từng bước thời gian mô phỏng t và thời gian t.
Đánh giá thực nghiệm
Nhóm nghiên cứu đã tiến hành so sánh định lượng giữa phương pháp mới nhất và phương pháp cơ bản trên một tập hợp thử nghiệm các video clip chưa xem.
Người ta nhận thấy rằng phương pháp tiếp cận của Google vượt trội đáng kể so với các đường cơ sở hoạt hình một hình ảnh trước đây về cả chất lượng tổng hợp hình ảnh và video.
Cụ thể, khoảng cách FVD và DT-FVD của Google thấp hơn nhiều, cho thấy video được tạo bằng phương pháp này chân thực hơn và mạch lạc hơn về mặt thời gian.
Vì Google sử dụng cách trình bày kết cấu chuyển động ngẫu nhiên toàn cầu nên cách tiếp cận của Google tạo ra các video nhất quán hơn theo thời gian và không bị trôi hoặc giảm chất lượng theo thời gian.
Đầu tiên, lát cắt không gian thời gian Xt của video được tạo được hiển thị, như trong Hình 7.
Động lực của các video do Google tạo tương tự hơn với các mẫu chuyển động được quan sát trong các video tham chiếu thực tương ứng (cột thứ hai). Các đường cơ sở như I2V ngẫu nhiên và MCVD không thể mô phỏng thực tế diện mạo và chuyển động theo thời gian.
Phương pháp do Google tạo tạo ra các khung có ít hiện tượng giả và biến dạng hơn so với các phương pháp khác, đồng thời các trường chuyển động 2D tương ứng gần giống nhất với các trường dịch chuyển tham chiếu được ước tính từ các video thực tương ứng.
Giới thiệu về tác giả
Lý Chính Kỳ
Ông là người nhận được Giải thưởng Đề cập Danh dự về Bài báo Xuất sắc nhất CVPR 2019, Học bổng Tiến sĩ Google năm 2020, Học bổng Nghiên cứu Adobe năm 2020, Giải thưởng Top 100 Ngôi sao Mới nổi Trung Quốc về Trí tuệ Nhân tạo Toàn cầu năm 2021 và Giải thưởng Danh dự Bài báo Xuất sắc nhất CVPR 2023.
Người giới thiệu: