Gần đây, giá cổ phiếu của Nvidia đã thiết lập đỉnh cao mới, sự tiến bộ của các mô hình đa phương thức đã củng cố thêm rào cản công nghệ của Web2 AI. Từ sự đồng nhất ngữ nghĩa đến hiểu biết về thị giác, từ nhúng chiều cao đến hợp nhất đặc trưng, các mô hình phức tạp đang tích hợp các cách diễn đạt của các phương thức khác nhau với tốc độ đáng kinh ngạc, xây dựng một vùng đất AI ngày càng khép kín. Thị trường chứng khoán Mỹ cũng đã thể hiện sự lạc quan đối với lĩnh vực AI bằng hành động thực tế, bất kể là trong lĩnh vực tiền mã hóa hay cổ phiếu AI, đều xuất hiện một đợt sóng tăng nhỏ.
Tuy nhiên, làn sóng này dường như không có nhiều liên hệ với lĩnh vực tiền điện tử. Những gì chúng ta thấy trong các nỗ lực Web3 AI, đặc biệt là sự phát triển theo hướng Agent trong vài tháng gần đây, có vẻ như có sự sai lệch về phương hướng: cố gắng lắp ráp một hệ thống mô-đun đa phương thức theo kiểu Web2 bằng cấu trúc phi tập trung, thực chất là một sự lệch lạc về công nghệ và tư duy. Trong bối cảnh tính kết hợp mô-đun cực kỳ mạnh mẽ, phân phối đặc trưng không ổn định cao và nhu cầu tính toán ngày càng tập trung, mô-đun đa phương thức khó có thể đứng vững trong Web3.
Tương lai của Web3 AI không nằm ở việc bắt chước đơn giản, mà ở việc điều hướng chiến lược. Từ sự đồng bộ ngữ nghĩa trong không gian chiều cao, đến nút thắt thông tin trong cơ chế chú ý, cho đến sự đồng bộ đặc trưng dưới sức mạnh tính toán không đồng nhất, tất cả đều là những hướng cần được xem xét kỹ lưỡng.
Nỗi khổ của sự đồng nhất ngữ nghĩa
Giao thức Web3 AI hoặc Agent khó có thể thực hiện không gian nhúng nhiều chiều. Hầu hết các Agent Web3 chỉ đơn thuần đóng gói các API có sẵn thành các mô-đun độc lập, thiếu một không gian nhúng trung tâm thống nhất và cơ chế chú ý xuyên mô-đun, dẫn đến thông tin không thể tương tác đa chiều, đa tầng giữa các mô-đun, chỉ có thể đi qua quy trình tuyến tính, thể hiện chức năng đơn lẻ, không thể hình thành tối ưu hóa vòng khép kín tổng thể.
Yêu cầu Web3 AI thực hiện không gian nhiều chiều, tương đương với việc yêu cầu giao thức Agent tự phát triển tất cả các API liên quan, điều này đi ngược lại với mục đích mô-đun của nó. Kiến trúc nhiều chiều yêu cầu đào tạo thống nhất từ đầu đến cuối hoặc tối ưu hóa phối hợp: từ việc bắt tín hiệu đến tính toán chiến lược, cho đến thực thi và kiểm soát rủi ro, tất cả các khâu chia sẻ cùng một bộ biểu diễn và hàm mất mát.
Giới hạn của cơ chế chú ý
Việc hoạch định sự chú ý thống nhất trên nền tảng Web3 AI dựa trên mô-đun là rất khó khăn. Cơ chế chú ý phụ thuộc vào không gian Query-Key-Value thống nhất, tất cả các đặc điểm đầu vào phải được ánh xạ vào cùng một không gian vector chiều cao để có thể tính toán trọng số động thông qua phép nhân điểm. Trong khi đó, các API độc lập trả về dữ liệu với định dạng và phân phối khác nhau, không có lớp nhúng thống nhất, do đó không thể tạo thành một bộ Q/K/V có thể tương tác.
Chú ý đa đầu cho phép đồng thời chú ý đến các nguồn thông tin khác nhau trong cùng một lớp, sau đó tổng hợp kết quả; trong khi đó, API độc lập thường là các cuộc gọi tuyến tính, với mỗi bước đầu ra chỉ là đầu vào của mô-đun tiếp theo, thiếu khả năng phân tán và trọng số động đa đường.
Tính năng hợp nhất bề mặt
Web3 AI hiện đang ở giai đoạn ghép nối các đặc trưng đơn giản nhất. Web2 AI có xu hướng huấn luyện liên kết từ đầu đến cuối, xử lý các đặc trưng đa mô hình trong không gian chiều cao cùng một lúc, tối ưu hóa phối hợp với các lớp chú ý và lớp hợp nhất cùng với lớp nhiệm vụ hạ nguồn. Trong khi đó, Web3 AI thường áp dụng cách tiếp cận ghép nối các mô-đun rời rạc, đóng gói các loại API thành các tác nhân độc lập, sau đó đơn giản ghép lại các nhãn, giá trị hoặc cảnh báo ngưỡng mà chúng xuất ra, và đưa ra quyết định tổng hợp bởi logic chính hoặc con người.
Rào cản và cơ hội trong ngành AI
Hệ thống đa phương thức AI Web2 đã trở thành một dự án kỹ thuật cực kỳ lớn, với yêu cầu rất cao về vốn, dữ liệu, sức mạnh tính toán, nhân tài và thậm chí là sự phối hợp tổ chức, do đó tạo ra một rào cản ngành rất mạnh. Tuy nhiên, sự hình thành của rào cản này cũng mang đến cơ hội tiềm năng cho AI Web3.
Cốt lõi của Web3 AI nằm ở tính phi tập trung, và con đường tiến hóa của nó thể hiện qua sự song song cao, liên kết thấp và khả năng tương thích với sức mạnh tính toán dị thể. Điều này khiến Web3 AI có lợi thế hơn trong các tình huống như điện toán biên, phù hợp cho các cấu trúc nhẹ, dễ dàng song song và có thể kích thích nhiệm vụ, chẳng hạn như tinh chỉnh LoRA, nhiệm vụ huấn luyện sau khi căn chỉnh hành vi, huấn luyện và gán nhãn dữ liệu crowdsourcing, huấn luyện mô hình cơ bản nhỏ, cũng như huấn luyện hợp tác trên thiết bị biên.
Chiến lược phát triển tương lai
Web3 AI nên áp dụng chiến thuật "nông thôn bao vây thành phố":
Bắt đầu từ thị trường nhỏ, nơi sức mạnh yếu và ít cảnh quan đã được thiết lập, từng bước củng cố vị trí, tích lũy tài nguyên và kinh nghiệm.
Kết hợp điểm và mặt, tiến triển hình tròn, liên tục lặp lại và cập nhật sản phẩm trong một bối cảnh ứng dụng đủ nhỏ.
Giữ linh hoạt, có thể nhanh chóng điều chỉnh cho các tình huống khác nhau, có thể linh hoạt chuyển đổi giữa các thị trường nhỏ khác nhau, tiến gần đến lĩnh vực mục tiêu với tốc độ nhanh nhất.
Tránh quá phụ thuộc vào cơ sở hạ tầng, giữ cho kiến trúc mạng nhẹ nhàng để tăng cường khả năng thích ứng và khả năng sinh tồn.
Chỉ khi lợi ích của Web2 AI hoàn toàn biến mất, những điểm đau còn lại của nó mới là cơ hội thực sự để Web3 AI xâm nhập. Trước đó, Web3 AI cần cẩn thận lựa chọn hướng phát triển, tránh sa vào bẫy tự tạo ra điểm đau, mà nên tập trung vào việc tích lũy sức mạnh trong các tình huống biên, chuẩn bị cho những bước đột phá trong tương lai.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Web3 AI khó khăn và đột phá: con đường phát triển từ bắt chước đến đi đường vòng chiến lược
Những khó khăn và hướng đi tương lai của Web3 AI
Gần đây, giá cổ phiếu của Nvidia đã thiết lập đỉnh cao mới, sự tiến bộ của các mô hình đa phương thức đã củng cố thêm rào cản công nghệ của Web2 AI. Từ sự đồng nhất ngữ nghĩa đến hiểu biết về thị giác, từ nhúng chiều cao đến hợp nhất đặc trưng, các mô hình phức tạp đang tích hợp các cách diễn đạt của các phương thức khác nhau với tốc độ đáng kinh ngạc, xây dựng một vùng đất AI ngày càng khép kín. Thị trường chứng khoán Mỹ cũng đã thể hiện sự lạc quan đối với lĩnh vực AI bằng hành động thực tế, bất kể là trong lĩnh vực tiền mã hóa hay cổ phiếu AI, đều xuất hiện một đợt sóng tăng nhỏ.
Tuy nhiên, làn sóng này dường như không có nhiều liên hệ với lĩnh vực tiền điện tử. Những gì chúng ta thấy trong các nỗ lực Web3 AI, đặc biệt là sự phát triển theo hướng Agent trong vài tháng gần đây, có vẻ như có sự sai lệch về phương hướng: cố gắng lắp ráp một hệ thống mô-đun đa phương thức theo kiểu Web2 bằng cấu trúc phi tập trung, thực chất là một sự lệch lạc về công nghệ và tư duy. Trong bối cảnh tính kết hợp mô-đun cực kỳ mạnh mẽ, phân phối đặc trưng không ổn định cao và nhu cầu tính toán ngày càng tập trung, mô-đun đa phương thức khó có thể đứng vững trong Web3.
Tương lai của Web3 AI không nằm ở việc bắt chước đơn giản, mà ở việc điều hướng chiến lược. Từ sự đồng bộ ngữ nghĩa trong không gian chiều cao, đến nút thắt thông tin trong cơ chế chú ý, cho đến sự đồng bộ đặc trưng dưới sức mạnh tính toán không đồng nhất, tất cả đều là những hướng cần được xem xét kỹ lưỡng.
Nỗi khổ của sự đồng nhất ngữ nghĩa
Giao thức Web3 AI hoặc Agent khó có thể thực hiện không gian nhúng nhiều chiều. Hầu hết các Agent Web3 chỉ đơn thuần đóng gói các API có sẵn thành các mô-đun độc lập, thiếu một không gian nhúng trung tâm thống nhất và cơ chế chú ý xuyên mô-đun, dẫn đến thông tin không thể tương tác đa chiều, đa tầng giữa các mô-đun, chỉ có thể đi qua quy trình tuyến tính, thể hiện chức năng đơn lẻ, không thể hình thành tối ưu hóa vòng khép kín tổng thể.
Yêu cầu Web3 AI thực hiện không gian nhiều chiều, tương đương với việc yêu cầu giao thức Agent tự phát triển tất cả các API liên quan, điều này đi ngược lại với mục đích mô-đun của nó. Kiến trúc nhiều chiều yêu cầu đào tạo thống nhất từ đầu đến cuối hoặc tối ưu hóa phối hợp: từ việc bắt tín hiệu đến tính toán chiến lược, cho đến thực thi và kiểm soát rủi ro, tất cả các khâu chia sẻ cùng một bộ biểu diễn và hàm mất mát.
Giới hạn của cơ chế chú ý
Việc hoạch định sự chú ý thống nhất trên nền tảng Web3 AI dựa trên mô-đun là rất khó khăn. Cơ chế chú ý phụ thuộc vào không gian Query-Key-Value thống nhất, tất cả các đặc điểm đầu vào phải được ánh xạ vào cùng một không gian vector chiều cao để có thể tính toán trọng số động thông qua phép nhân điểm. Trong khi đó, các API độc lập trả về dữ liệu với định dạng và phân phối khác nhau, không có lớp nhúng thống nhất, do đó không thể tạo thành một bộ Q/K/V có thể tương tác.
Chú ý đa đầu cho phép đồng thời chú ý đến các nguồn thông tin khác nhau trong cùng một lớp, sau đó tổng hợp kết quả; trong khi đó, API độc lập thường là các cuộc gọi tuyến tính, với mỗi bước đầu ra chỉ là đầu vào của mô-đun tiếp theo, thiếu khả năng phân tán và trọng số động đa đường.
Tính năng hợp nhất bề mặt
Web3 AI hiện đang ở giai đoạn ghép nối các đặc trưng đơn giản nhất. Web2 AI có xu hướng huấn luyện liên kết từ đầu đến cuối, xử lý các đặc trưng đa mô hình trong không gian chiều cao cùng một lúc, tối ưu hóa phối hợp với các lớp chú ý và lớp hợp nhất cùng với lớp nhiệm vụ hạ nguồn. Trong khi đó, Web3 AI thường áp dụng cách tiếp cận ghép nối các mô-đun rời rạc, đóng gói các loại API thành các tác nhân độc lập, sau đó đơn giản ghép lại các nhãn, giá trị hoặc cảnh báo ngưỡng mà chúng xuất ra, và đưa ra quyết định tổng hợp bởi logic chính hoặc con người.
Rào cản và cơ hội trong ngành AI
Hệ thống đa phương thức AI Web2 đã trở thành một dự án kỹ thuật cực kỳ lớn, với yêu cầu rất cao về vốn, dữ liệu, sức mạnh tính toán, nhân tài và thậm chí là sự phối hợp tổ chức, do đó tạo ra một rào cản ngành rất mạnh. Tuy nhiên, sự hình thành của rào cản này cũng mang đến cơ hội tiềm năng cho AI Web3.
Cốt lõi của Web3 AI nằm ở tính phi tập trung, và con đường tiến hóa của nó thể hiện qua sự song song cao, liên kết thấp và khả năng tương thích với sức mạnh tính toán dị thể. Điều này khiến Web3 AI có lợi thế hơn trong các tình huống như điện toán biên, phù hợp cho các cấu trúc nhẹ, dễ dàng song song và có thể kích thích nhiệm vụ, chẳng hạn như tinh chỉnh LoRA, nhiệm vụ huấn luyện sau khi căn chỉnh hành vi, huấn luyện và gán nhãn dữ liệu crowdsourcing, huấn luyện mô hình cơ bản nhỏ, cũng như huấn luyện hợp tác trên thiết bị biên.
Chiến lược phát triển tương lai
Web3 AI nên áp dụng chiến thuật "nông thôn bao vây thành phố":
Bắt đầu từ thị trường nhỏ, nơi sức mạnh yếu và ít cảnh quan đã được thiết lập, từng bước củng cố vị trí, tích lũy tài nguyên và kinh nghiệm.
Kết hợp điểm và mặt, tiến triển hình tròn, liên tục lặp lại và cập nhật sản phẩm trong một bối cảnh ứng dụng đủ nhỏ.
Giữ linh hoạt, có thể nhanh chóng điều chỉnh cho các tình huống khác nhau, có thể linh hoạt chuyển đổi giữa các thị trường nhỏ khác nhau, tiến gần đến lĩnh vực mục tiêu với tốc độ nhanh nhất.
Tránh quá phụ thuộc vào cơ sở hạ tầng, giữ cho kiến trúc mạng nhẹ nhàng để tăng cường khả năng thích ứng và khả năng sinh tồn.
Chỉ khi lợi ích của Web2 AI hoàn toàn biến mất, những điểm đau còn lại của nó mới là cơ hội thực sự để Web3 AI xâm nhập. Trước đó, Web3 AI cần cẩn thận lựa chọn hướng phát triển, tránh sa vào bẫy tự tạo ra điểm đau, mà nên tập trung vào việc tích lũy sức mạnh trong các tình huống biên, chuẩn bị cho những bước đột phá trong tương lai.