Hoạt động

Đấu trường của người sáng tạo

Đại sứ Campus

Đánh giá đầy đủ: Manus ra đời như thế nào?

Trung cấp

Công nghệ AI

3/17/2025, 7:52:17 AM

Bài viết này cung cấp một phân tích sâu sắc về lịch sử ra đời, các khái niệm sản phẩm của Manus.im và các thực hành đổi mới của nó trong lĩnh vực trí tuệ nhân tạo.

Câu chuyện khởi nghiệp nhận được nhiều nguồn cảm hứng tinh thần nhất năm ngoái đến từ nhà sáng lập Dify Zhang Luyu.

Lần đầu tiên tôi gặp anh ấy là tại sự kiện “Đạo Giáo Xích Xích” vào năm 2023. Trong số những ngôi sao nổi tiếng tại hiện trường, Zhang Luyu không hề nổi bật. Khi chúng ta gặp lại vào năm 2024, Dify đã trở thành một câu chuyện khác - một doanh nhân không có nền tảng quyến rũ, người đã tạo ra một trong những sản phẩm mã nguồn mở AI thành công nhất thế giới giữa sự nghi ngờ của mọi người về mô hình kinh doanh.

Điều gì đã xảy ra với công ty này trong một năm, chẳng hạn như sự phổ biến bất ngờ của nó trên thị trường Nhật Bản, mà là “cổ điển và dễ bảo vệ nhưng khó tấn công”, giúp tôi hiểu thêm về “tinh thần khởi nghiệp”. Đó chủ yếu là những sự cố, và cũng cần phải có may mắn. Cuối cùng, bạn cần có khả năng tìm ra cách thoát khỏi những thay đổi liên tục và phản pháo.

Bây giờ, một câu chuyện tương tự đã xảy ra với một doanh nhân nổi tiếng khác—Manus.im Xiao Hong và nhóm của ông.

Bốn tháng trước, Xiao Hong đã đề cập đến một sự nhầm lẫn, “Đội ngũ rất giỏi trong việc chuyển từ 0 sang 1 và có khả năng nắm bắt cơ hội mạnh mẽ. Nhưng một khi bắt đầu từ 1 đến N, tình hình không được tốt lắm.”

Trên quá trình kinh doanh trước đây, hầu hết các dự án khởi nghiệp của anh ấy đã đạt được doanh thu tương đối ổn định và đáng kể, và công ty cuối cùng của anh ấy cũng đã được mua thành công. Vào năm 2023, công ty mới của anh ấy “Hiệu ứng Bướm” thậm chí đã sử dụng một tiện ích trình duyệt, Monica.im, để cạnh tranh trong lĩnh vực truyện AI của hàng trăm mô hình và trở thành một trong những ứng dụng AI tăng trưởng nhanh nhất với trải nghiệm sản phẩm xuất sắc. Có vẻ như anh ấy là một doanh nhân đã có một hành trình suôn sẻ. Anh ấy chỉ mới 32 tuổi khi có thể làm những điều này.

Nhưng thực tế, anh ấy không cảm thấy quá hạnh phúc. Trong quan điểm của Tiểu Hồng, việc “liên tục rời khỏi doanh nhân” và cảm giác sảng khoái liên tục từ 0 đến 1 như một cuộc vây hãm - khả năng tận dụng cơ hội từ 0 đến 1 rất mạnh mẽ và rất đầy hứng thú, nhưng mặt khác, bạn cũng lo lắng liệu bạn có cần phải làm lại điều đó hay không.

Vào năm 2024, các chuyên gia trong ngành tin rằng các trợ lý AI có chức năng lưu trữ như Monica.im sẽ phải đối mặt với áp lực từ các đối thủ mạnh như Doubao, và điều này sẽ không dễ dàng như trong năm 2023. Monica.im có một khởi đầu tốt từ 0 đến 1, nhưng không nhất thiết là một thành công từ 1 đến N.

Và lý do anh ấy bị lú lẫn là vì “đội ngũ thực sự sẽ thực hiện những việc khó khăn hơn và có tiềm năng cao hơn tiếp theo” và khám phá những điều có thể kéo dài từ 1 đến N.

Trước đó, nhiều ý kiến chú ý đến Monica.im cho rằng “cái gì đó khó hơn và trần cao hơn” này đề cập đến trình duyệt AI đã được đồn đại từ lâu nhưng chưa được nhóm phát hành. Bây giờ nhìn xem, đúng là tôi đoán sai.

Việc khám phá khó khăn hơn này thực sự là: Từ bỏ trình duyệt AI đã đạt đến trạng thái phát hành, tìm kiếm sản phẩm AI “khoảnh khắc ChatGPT” tiếp theo, tìm mục tiêu của một tác nhân phổ quát và tạo bản phát hành Manus.im mới nhất.

Đến đâu mức độ của Manus là sáng tạo và mức độ nó có thể đạt được trong tương lai hiện đang là một chủ đề nóng. Nhưng điều đáng xem là vẫn là hướng tìm thấy trong “mọi thứ đi ngược lại dự đoán” và quá trình tìm hướng đi. Manus.im có thể không thể giúp đội này hoàn thành từ 1 đến N, hoặc thậm chí sao chép đà động của Monica.im, nhưng giống như cái tên của công ty này - “Tác động bướm”, nhiều hành động nhỏ và quyết định không cố ý có ảnh hưởng sâu rộng đến tương lai, “Kết nối các chấm”, con đường tới ngày mai sẽ được giấu kín trong trải nghiệm hôm nay.

Trải nghiệm sản phẩm độc đáo của Manus đến từ những bài học rút ra từ việc tạo ra một “trình duyệt AI”

Từ giữa đến cuối năm ngoái, trình duyệt AI của nhóm ‘Hiệu ứng Bướm’ đã trở thành một ‘bí mật bán công khai’ trong ngành công nghiệp. Sản phẩm được công bố chính thức với công chúng là Manus, thu hút sự chú ý không kiểm soát được.

Nếu bạn đã trải nghiệm cá nhân Manus hoặc xem video demo, bạn sẽ cảm thấy rằng có sự khác biệt đáng kể so với chatbots hoặc một số ứng dụng giống như đại lý: Manus có thể thực thi các nhiệm vụ một cách không đồng bộ và song song.

Khi bạn mở một ứng dụng như Doubao, Kimi, hoặc một cái gì đó giống như Computer Use và gửi một câu hỏi, bạn phải đợi nó trả lời. Nếu không, nếu bạn nói chuyện với nó trong khi nó đang trả lời hoặc thực hiện một nhiệm vụ, trả lời/nhiệm vụ trước sẽ bị gián đoạn, và bạn chỉ có thể có một cuộc trò chuyện dạng A-B-A-B với nó.

Tuy nhiên, trên Manus.im, mặc dù trông vẫn giống như một sản phẩm chatbot, bạn có thể đặt 20 câu hỏi để nó thực hiện các tác vụ cùng một lúc. Bạn có thể làm bất cứ điều gì khác trên máy tính sang một bên, xem video, viết tài liệu, chơi trò chơi, v.v., mà không làm chậm trễ công việc của nó. Manus có thể thông báo cho bạn khi các nhiệm vụ này được hoàn thành hoặc gặp sự cố trong quá trình thực hiện. Nếu bạn thấy sự sai lệch trong suy nghĩ của nó trong quá trình thực hiện một nhiệm vụ, bạn có thể thêm các từ nhắc vào hộp thoại bất cứ lúc nào và nó sẽ tiếp tục suy nghĩ và thực hiện nhiệm vụ với ngữ cảnh mới.

Trải nghiệm là không đồng bộ và có thể được song song hóa, và thực sự cảm thấy như có một đội thực tập sinh thực sự có thể giúp bạn làm việc.

Trong thực tế, thiết kế kiến trúc sản phẩm của Manus cho trải nghiệm không đồng bộ bắt nguồn từ bài học mà nhóm học được từ sản phẩm trước đó mà họ không tiết lộ, trình duyệt trí tuệ nhân tạo. Đồng thời, đây cũng là lý do tại sao nhóm đã đầu tư rất nhiều năng lượng nhưng quyết định dừng việc làm trình duyệt vào tháng Mười năm ngoái.

Công ty Trình duyệt thông báo vào ngày 25 tháng 10 năm 2024 rằng họ sẽ ngừng phát triển tính năng mới cho trình duyệt Arc và quyết định chuyển tài nguyên sang một trình duyệt mới là Dia, nhằm tạo ra một trình duyệt trí tuệ đơn giản và dễ sử dụng hơn. | Nguồn: Trang web chính thức của Arc

“Trong trình duyệt AI, AI liên tục ngắt quãng người dùng.” Bởi vì đây là một kịch bản được thiết kế cho một người dùng duy nhất, một khi AI được sử dụng, bạn không thể sử dụng nó. Khi AI bắt đầu hoạt động, bạn chỉ có thể xem AI làm việc, điều này khá khó để bắt đầu. Xem AI cướp đi chuột và máy tính của bạn, không chỉ bạn không dám cướp lại, mà bạn còn sợ rằng sờ phải bàn phím hoặc chuột sẽ làm cả quá trình sụp đổ và yêu cầu bạn bắt đầu lại từ đầu.

Điều này cho phép nhóm đưa ra hai quyết định:

Sử dụng trực tiếp máy tính để thực hiện Việc Sử dụng Máy Tính không khả thi trong thời gian ngắn.
AI nên sử dụng một trình duyệt, nhưng không phải trong trình duyệt của bạn. Nó nên có trình duyệt riêng, ưu tiên là trên đám mây, và cuối cùng trả kết quả lại cho bạn.

Trong một cuộc phỏng vấn với Zhang Xiaojun của Công nghệ Tencent, Xiao Hong đã đề cập rằng khi nhóm tổng kết các hình thức sản phẩm từ Jasper đến ChatGPT đến Monica đến Cursor đến Devin, họ phát hiện ra rằng “lập trình viên con người” Devin rất phù hợp với kiến trúc trải nghiệm không đồng bộ này.

Khác với việc sử dụng Windsurf, đôi khi nó yêu cầu bạn xác nhận xem máy tính của bạn có cần cài đặt thư viện này không; hoặc nó thực hiện một hoạt động dòng lệnh và yêu cầu bạn điền yes hoặc no, vì nó có thể gây hại thực sự cho máy tính của bạn, hoặc có xung đột với một cái gì đó - nó yêu cầu bạn điền “yes” để tiếp tục bước tiếp theo, nhưng phải chịu trách nhiệm.

Do đó, theo quan điểm của nhóm Manus, “Chatbot nên có một máy tính trong đám mây, và mã mà nó viết và những điều cần được kiểm tra thông qua trình duyệt được thực hiện trên máy tính đó. Bởi vì nó là một máy chủ ảo, nó không quan trọng nếu nó bị hỏng, bạn có thể lấy một cái khác. Nó có thể thậm chí giải phóng máy chủ sau khi nhiệm vụ hiện tại hoàn thành.

Đáng chú ý rằng trong khi Devin chọn các lĩnh vực dọc và kỹ sư chuyên sâu, nhóm Manus chọn trợ lý trí tuệ nhân tạo cấp độ tiêu dùng đa năng, bao gồm Web và App. Đó là một trợ lý trí tuệ nhân tạo đa năng có thể gọi công cụ và hoàn thành các nhiệm vụ khác nhau trong công việc và cuộc sống theo hướng dẫn. Trong tương lai, nó cũng sẽ cung cấp kết quả nhiệm vụ với giá phải chăng cho người tiêu dùng.

02 Ít Cấu Trúc, Nhiều Trí Tuệ

Với ý tưởng và mục tiêu rõ ràng, bước tiếp theo là thực hiện ý tưởng đó. Manus đã thực hiện điều đó như thế nào?

Theo đối tác sản phẩm của nó Zhang Tao, điều này yêu cầu trang bị cho mô hình lớn một máy tính, cũng như cấp cho nó quyền hệ thống (truy cập vào các API riêng như kho lưu trữ mã và các trang web truy vấn dữ liệu chuyên nghiệp), và cung cấp cho nó một số buổi đào tạo cụ thể.

Theo cách này, trí tuệ nhân tạo có thể sử dụng máy tính này để mở trình duyệt, thực hiện các hành động để lập lịch công cụ, sau đó quan sát tác động của các hành động của nó đối với thế giới thực dựa trên phản hồi được tạo ra bởi các công cụ, sau đó suy nghĩ về bước tiếp theo, thực hiện lại các hành động, và sau đó quan sát… Đây là quá trình trí tuệ nhân tạo hoàn thành các nhiệm vụ trong việc khám phá và nghiên cứu. Trong thời gian này, Manus cũng sẽ hiểu rõ hơn và hơn về yêu cầu của bạn dưới sự “huấn luyện” của bạn. Trong tương lai, ngay cả khi bạn không xác định rõ yêu cầu của bạn, nó vẫn có thể “hiểu ra ý nghĩa thiêng liêng” dựa trên kiến thức tích luỹ trong mỗi nhiệm vụ.

Li Bojie, thiên tài trẻ của Huawei và người sáng lập của Logenic AI, tin rằng Manus có một đặc điểm duy nhất khiến nó khác biệt so với các sản phẩm khác: nó giải quyết vấn đề theo cách của các lập trình viên geek. ｜Nguồn hình ảnh: Ảnh chụp màn hình WeChat

Khái niệm về các sản phẩm của Manus dần trở nên rõ ràng trong quá trình thực hành sản phẩm của nhóm: Ít Cấu trúc, Nhiều Trí tuệ (Ít Cấu trúc, Nhiều Trí tuệ).

Đây cũng là thời điểm khi làm cho nhóm Manus nói ‘A-Ha, chờ đã!’ Ví dụ, đây là điều đã xảy ra với nhóm vào tháng 1 năm nay:

Khi Manus được yêu cầu thử làm một câu hỏi trên bộ đề thi GAIA: “Trong một liên kết video YouTube tương tự phong cách National Geographic, các loài chim cánh cụt khác nhau xuất hiện và biến mất liên tục trên màn hình. Manus được yêu cầu đếm số lượng tối đa các loài chim cánh cụt xuất hiện trong cùng một khung hình vào cùng một thời điểm. Có bao nhiêu loại chim?”

Sau đó, một điều kỳ diệu đã xảy ra.

Manus đã mở liên kết video lần đầu tiên và hành động đầu tiên mà anh ấy thực hiện là “Nhấn K”. Sau đó, anh ấy chụp ảnh màn hình một cách tuần tự để ghi lại loại chim cánh cụt nào xuất hiện trong khung nào. Cuối cùng, anh ấy kết luận rằng khung có sự xuất hiện của nhiều nhất 3 loại chim cánh cụt. Manus sẽ quay trở lại kiểm tra tiếp theo, và hành động tiếp theo của anh ấy là “Nhấn 3”… Sau khi kiểm tra cuối cùng, câu trả lời là 3.

Là những người đứng sau việc xây dựng Manus, chúng ta nên biết ranh giới của khả năng của nó, nhưng đối với đội ngũ, thực tế là “luôn có những bất ngờ.” Đáng ngạc nhiên, không chỉ Manus trả lời đúng câu hỏi, mà còn, những người bạn của con người đã sử dụng máy tính và Youtube trong nhiều năm có thể không nhất thiết biết rằng các phím “K” và “3” trên bàn phím là gì?

Nhìn vào cảnh hơi choáng ngợp trước mặt họ, nhóm đã theo Manus và làm lại. Phím “K” trên bàn phím là phím tạm dừng, cho phép Manus chụp từng bức ảnh một sau khi tạm dừng để ghi lại rằng con chim cánh cụt nào xuất hiện trong bức ảnh nào; “3” cũng là phím tắt, từ 0 đến 9 tương ứng với 0% đến 90% của thanh tiến độ. 3 là 30% của thanh tiến độ. Nó có thể xác định chính xác giây thứ hai của video và sau đó cho con người biết có bao nhiêu loại chim cánh cụt trong bức ảnh này.

Quy trình này khác biệt so với Chatbot truyền thống. Đầu tiên, nó có thể xem hình ảnh YouTube thay vì phụ đề. Thứ hai, chúng tôi thậm chí phát hiện ra rằng nó đang sử dụng phím tắt trên YouTube. Chúng tôi rất sốc khi nó trả lời câu hỏi này.” Xiao Hong cũng đề cập đến cảnh này trong một cuộc phỏng vấn trước đó với Tencent Technology.

Bất ngờ, tôi phát hiện ra rằng Manus không chỉ giỏi lập trình hơn con người, mà kiến thức của Manus về Web và ứng dụng mà mọi người sử dụng hàng ngày còn vượt xa sự tưởng tượng. Là một trí tuệ siêu việt và vô song, nó có thể hiểu được mọi cách thức và phương pháp trong bất kỳ công cụ nào, sau đó chọn ra phương pháp tối ưu.

Điều này một lần nữa cho phép nhóm cảm thấy “Ít Cấu Trúc, Nhiều Thông Minh” - giảm thiểu các hạn chế nhân tạo đối với AI và cho phép AI hoạt động thông qua sự tiến hóa của chính nó thay vì dạy nó phải làm gì.

Ở phía dưới cùng của trang web chính thức của Manus, phát hiện quan trọng nhất đằng sau Manus được trình bày một cách yên bình: “Ít Cấu Trúc, Nhiều Thông Minh”. |Nguồn ảnh chụp màn hình: Manus

Đây là giải thích và suy nghĩ mở rộng của Peak, người sáng lập và nhà khoa học trưởng của “Hiệu Ứng Bướm”, về nguyên lý quan trọng nhất đằng sau sản phẩm Manus - “Ít Cấu Trúc, Nhiều Thông Minh” vào ngày sản phẩm Manus được ra mắt:

Khi dữ liệu của bạn có chất lượng cao, mô hình của bạn đủ thông minh, kiến trúc của bạn đủ linh hoạt, và kỹ thuật của bạn đủ chắc chắn, các khái niệm như Sử dụng Máy tính, Nghiên cứu Sâu và Lập trình Viên sẽ chuyển từ các tính năng sản phẩm thành những khả năng tự nhiên mọc lên.

Quay trở lại nguyên tắc cơ bản cũng mang lại cho chúng ta một cách suy nghĩ mới về hình thức sản phẩm:· Trình duyệt AI không thêm AI vào trình duyệt, mà tạo ra một trình duyệt dành cho AI;
· Tìm kiếm AI không gọi và tóm tắt từ chỉ mục, mà cho phép AI lấy thông tin với quyền của người dùng;
· Quá trình vận hành giao diện người dùng không chiếm quyền kiểm soát của thiết bị người dùng, mà cho phép trí tuệ nhân tạo có máy ảo riêng của mình;
Viết code không phải là mục tiêu cuối cùng, mà là một phương tiện chung để giải quyết các vấn đề khác nhau;
· Sự khó khăn khi tạo ra một trang web không phải là xây dựng một khuôn khổ, mà là làm cho nội dung có ý nghĩa;
· Chú ý không phải là tất cả những gì bạn cần. Chỉ khi giải phóng sự chú ý của người dùng, DAU mới có thể được định nghĩa lại;

Qua việc khám phá và thực hành ‘Ít Cấu Trúc, Nhiều Thông Minh’ lần sau lần, Manus đã tạo ra kết quả vượt xa mong đợi, bao gồm cả cách qua.@1điểm số trong bảng xếp hạng GAIA vượt qua điểm số của OpenAI Deep Research dưới cons@64; đồng thời, trong các bài kiểm tra nội bộ, Manus cũng có thể trực tiếp bao phủ 76% các trường hợp của các sản phẩm đặc biệt của đại lý trong Y Combinator W25.

03 “Agent có thể là một vấn đề về “sự cân chỉnh” chứ không phải là vấn đề về khả năng cơ bản của mô hình”

Bây giờ, giá trị của những hiểu biết này đang được thảo luận trên quy mô lớn hơn:

Clement Delangue, nhà sáng lập và CEO của Hugging Face, đề xuất các kết quả của Peak về Một số mô hình cơ bản mã nguồn mở chỉ đơn giản được huấn luyện để “trả lời tất cả các câu hỏi trong một vòng không phụ thuộc vào độ phức tạp của câu hỏi.” Tuy nhiên, điều này là yêu cầu trong kịch bản chatbot. Chỉ cần thực hiện một số bài huấn luyện sau trên con đường của đại lý có thể tạo ra sự khác biệt lớn ngay lập tức. | Nguồn ảnh chụp màn hình: X

Manus không giới thiệu MCP (Model Context Protocol), nhưng cho phép trí tuệ nhân tạo tự viết mã của mình để gọi các API để xử lý các nhiệm vụ dài đuôi khác nhau. ｜Nguồn ảnh chụp màn hình: X

Trong những cuộc thảo luận về Manus trong những ngày qua, một trong những câu hỏi phổ biến nhất mà tôi đã nghe là: Liệu một “Tác nhân trí tuệ nhân tạo toàn cầu” có khả thi không? Giới hạn ở đâu?

Theo quan điểm của Peak, bởi vì sự tương tác giữa con người và thế giới thực sự rất chuẩn, với mắt, tay và tai, nếu không gian hành động được xác định rõ, có thể nhúng một tác nhân vào một liên kết ban đầu được thực hiện bởi con người.

Vì mọi người có thể sử dụng các công cụ khác nhau để thực hiện các hoạt động sâu trong lĩnh vực dọc, nếu một đại lý có đủ kiến thức, đã được đào tạo đúng cách, và có giao diện tốt để tương tác với thế giới, nó nên có thể làm việc như một người, thậm chí để đại lý sử dụng một sản phẩm SaaS cụ thể. Ví dụ, một trường hợp tìm nhà được trình bày trên trang web chính thức của Manus.im thực sự liên quan đến việc cho phép trí tuệ nhân tạo làm việc với một sản phẩm SaaS dành riêng cho lĩnh vực bất động sản.

Anh ấy tin rằng điều cần được xác định rõ ràng là ranh giới của việc sử dụng công cụ của đại lý, chứ không phải là nhóm người mà nó phục vụ. Manus không mô phỏng một người làm những việc cụ thể, cũng không phải là một đại lý vai trò được chia thành R&D, quản lý sản phẩm, v.v.; nó đang mô phỏng một người có thể làm việc, và mô phỏng cách một thực tập sinh làm việc.

Hệ thống đa tác nhân của Manus đề cập đến việc tách biệt kế hoạch và thực hiện.

Đối với người thực thi (Người thực thi), Manus đã chọn Claude, người đang tạm thời dẫn đầu trong lập trình, kế hoạch dài hạn và khả năng giải quyết vấn đề từng bước, và cũng sử dụng một loạt các mô hình Qwen cho sau đào tạo.

Hôm qua, Manus cũng đã đạt được hợp tác chiến lược với Alibaba Tongyi Qianwen, cam kết thực hiện tất cả các chức năng của Manus trên các mô hình trong nước và nền tảng sức mạnh tính toán. ｜Nguồn hình ảnh: Manus

Trong phần lập kế hoạch, Manus đã làm rất nhiều công việc.

Vì các API hoặc mô hình kệ hiện có trên thị trường đều được cấu hình cơ bản cho các kịch bản robot trò chuyện, trong quá trình đào tạo, dù người dùng hỏi câu hỏi có phức tạp đến đâu, mục tiêu tối ưu của quá trình đào tạo là trả lời câu hỏi của người dùng một cách rõ ràng trong một câu trả lời, nhưng thực tế điều này hoàn toàn ngược lại với kế hoạch cần thiết của đại lý.

Vì vậy, nếu một mô hình hiện có trên thị trường được sử dụng trực tiếp trong kịch bản của đại lý mà không có “sự cân đối”, mô hình này sẽ luôn hướng đến thành công nhanh chóng và đưa ra kết quả “lộn xộn” trong một vòng trò chuyện, giống như nhiều bản tóm tắt dạng điểm.

“Phương pháp cân chỉnh nên khác nhau. Nhóm của chúng tôi tin rằng cần dữ liệu khác nhau để thực hiện việc cân chỉnh đặc biệt,” Xiao Hong nói.

Vào tháng 10 năm ngoái, Peak cũng đã ghi lại trên Zhihu sự tiến triển và thất bại của một nỗ lực sao chép lại dự án về mảng quan tâm OpenAI o1 - mô hình mã nguồn mở Steiner. Trên thực tế, dự án này đang tiến hành nghiên cứu tiên phong về phần lập kế hoạch từng bước của kế hoạch viên Manus.

Nhìn chung, Manus đang mô phỏng một người làm việc. Đây là định nghĩa sản phẩm của nhóm về Manus như một trợ lý trí tuệ tổng quát. Đối với việc xem xét về ranh giới của nó, có lẽ nhóm vẫn đang khám phá và cần nhiều trường hợp sử dụng từ người dùng hơn.

Trong một cuộc phỏng vấn với Công nghệ Tencent được phát hành trước khi Manus được phát hành, Xiao Hong thực tế đã đề cập đến suy nghĩ ban đầu của mình về tính linh hoạt của Manus. “Một vấn đề cốt lõi, hoặc một trách nhiệm rất quan trọng của các quản lý sản phẩm, là kiểm soát kỳ vọng của người dùng. Giả định rằng nó có thể làm mọi thứ trên thế giới, như: Làm thế nào để tôi kiếm được $1 triệu? Điều này không phải là điều mà một Đại lý nên thực hiện. Nhưng nếu chúng ta có thể đưa ra ví dụ cụ thể hơn để làm cho kỳ vọng của mọi người hợp lý hơn, mọi người sẽ sử dụng nó một cách mượt mà hơn.”

04 “Các vỏ sò có những công dụng riêng của chúng”, đội ngũ hiểu rõ nhất về các vỏ sò

Vào sáng sớm ngày 27 tháng 2, Đối tác sản phẩm Manus Zhang Tao và nhà khoa học trưởng Ji Yichao (Peak) đã rơi nước mắt khi họ nhìn thấy kết quả xếp hạng của Manus.im. Hiệu suất của Manus trên Bài kiểm tra GAIA vượt qua của Deep Research của OpenAI, và đạt được kết quả không ngờ đến này với chi phí khoảng 1/10 ($2/nhiệm vụ) so với bài kiểm tra của OpenAI.

Nguồn hình ảnh: Manus.im

Một nhóm gồm hàng chục người đã trở thành một trong những đội đầu tiên tạo ra một sản phẩm đại lý thông dụng khi các đại lý đạt được sự đồng thuận về cạnh tranh trên toàn ngành công nghiệp. Họ cũng độc đáo trong kỹ thuật sản phẩm và trải nghiệm tương tác phía trước.

Phản hồi tích cực từ những điều đã làm tốt hơn bất cứ điều gì khác. Không có động lực tốt hơn cho một nhóm khởi nghiệp hơn thế. Nhưng trước đó, Manus đã xảy ra như thế nào? Tại sao lại có đội ngũ này?

“Các khả năng của mô hình hiện nay có thể hoàn thành một số nhiệm vụ phức tạp, đa bước. Nhưng không có sản phẩm nào như vậy, vì vậy mọi người không thể cảm nhận được.” Các hiểu biết mà Xiao Hong đề cập trong các cuộc phỏng vấn trước đó với Tencent Technology có thể được sử dụng để hiểu vấn đề này.

Cùng một lúc, không nhiều đội có cơ hội thử nghiệm sản phẩm Agent. Bởi vì nó đòi hỏi rất nhiều khả năng tổng hợp. Anh ấy muốn làm việc trên Chatbot, một số công việc liên quan đến lập trình AI, và liên quan đến trình duyệt, vì anh ấy cần gọi trình duyệt, và anh ấy có cái nhìn tốt về ranh giới của LLM - mức độ nó đã phát triển đến hôm nay, và mức độ nó sẽ phát triển đến đâu tiếp theo. Trước hết, không có nhiều công ty có những khả năng này cùng một lúc, và các công ty có những khả năng này có thể đang thực hiện một ngành kinh doanh rất cụ thể. Một số bạn cùng lớp của chúng tôi đã có thời gian để làm những việc này cùng nhau.

“chính xác”.

Được phát hiện đúng thời điểm rằng khả năng mô hình đã đạt đến mức có thể được sử dụng như một đại lý, mà không cần phải chờ đợi một mô hình lớn từ đầu đến cuối như một Operator được phát hành;
Tôi cũng tình cờ phát hiện ra rằng vấn đề là sự căn chỉnh;
Tôi cũng đã thực hiện tất cả các chức năng mở rộng bởi các chatbot và trình duyệt AI;
Cùng một lúc, bởi vì tôi đã sản xuất các sản phẩm ứng dụng mô hình quy mô lớn trong cái gọi là “vỏ”, tôi có nhận thức sắc bén về LLM;

Nhóm “Hiệu ứng Bướm” đã đạt được tất cả các yếu tố để tạo ra một đại lý phổ quát như vậy ngày nay, vì vậy bây giờ có một đại lý phổ quát với một mức độ hoàn thiện tương đối cao so với ngành công nghiệp.

Khi được hỏi về khoảnh khắc quyết định khi anh ấy muốn bắt đầu Manus, Peak khôi phục thêm chi tiết. Anh ấy nói, “Thực ra không có sự ‘quyết định’ sạch sẽ nào trong lĩnh vực khởi nghiệp.” Mọi thứ đều liên kết và không có ranh giới rõ ràng.

“Khi tôi tạo ra một sản phẩm, tôi cũng thường xem xét kỹ lưỡng về tình hình bên ngoài.” Vào thời điểm đó, có một vài vấn đề. Đầu tiên, khi tôi tạo ra một trình duyệt, tôi đã tạo một mô hình phía client. Sau này, tôi nhận thấy rằng trình duyệt yêu cầu một loạt các kịch bản rất rộng và có các tính năng khác nhau. Trong quá trình, tôi phát hiện rằng mô hình cơ sở đang trở nên mạnh mẽ theo tốc độ tăng. Khoảng cách giữa nó và đại lý có thể là một vấn đề về sự sắp xếp. Mặc dù thế giới bên ngoài có thể cảm thấy rằng các mô hình ngôn ngữ lớn dần dần hội tụ và đạt tới một ranh giới.

Cùng lúc đó, thế giới bên ngoài cũng đang thay đổi. Cursor cất cánh vào đầu năm ngoái, tiếp theo là Windsurf và Devin. Điều này tương ứng với ngữ cảnh tương tự. Các tác nhân rất phổ biến trong lĩnh vực lập trình, và con đường để trở nên phổ biến là tiến bộ. Cursor là trợ lý cho các lập trình viên, giúp cải thiện hiệu suất lập trình. Bắt đầu từ Windsurf, một số quy trình tự động hóa dần được giới thiệu, cho phép bạn có khả năng tự động hóa mạnh mẽ hơn trên máy tính cục bộ của bạn. Devin đã đạt đến một cấp độ tự động hóa mới.

Các xu hướng của VC cũng nhất quán. Ví dụ, năm ngoái và năm kia, YC đã đầu tư vào hai loại công ty. Một loại là Trình duyệt đám mây, chẳng hạn như dựa trên Trình duyệt; loại thứ hai là máy ảo AI Sandbox nhẹ tương tự như e2b.

Điều này cho thấy rằng “cơ sở hạ tầng của mô hình đang phát triển nhanh chóng, và cơ sở hạ tầng của Infra cũng đang phát triển nhanh chóng. Ngoài ra, khi thấy rằng các sản phẩm bên ngoài đang dần được chấp nhận nhiều hơn, chúng tôi cảm thấy rằng đây là một hướng đi đáng giá để đầu tư hết mình. Điều này là một quy trình rất từ từ và mượt mà. Ngoài ra, cơ sở hạ tầng tích luỹ trong quá trình phát triển của trình duyệt như Chromium có thể được chuyển đổi một cách liền mạch, đó là lý do tại sao chúng tôi dám phát triển trình duyệt trong đám mây.”

Tóm lại, sự nhạy bén và tích luỹ kinh nghiệm về yêu cầu và mô hình trong cái gọi là “vỏ” đã cùng nhau tạo ra Manus. Nhiều tình huống của Monica đòi hỏi việc đào tạo sau mô hình. Đồng thời, bài học quan trọng nhất “ít cấu trúc, nhiều thông minh” đã được củng cố trong việc thực hành trình duyệt trí tuệ nhân tạo. Cô ấy nhận thấy rằng khả năng của mô hình đã đạt đến mức trở thành một người đại diện, nhưng vấn đề nằm ở việc cân chỉnh. Những gì tiếp theo là ba tháng tiến hóa nhanh chóng cho Manus.

Trước đây, nhóm “Hiệu ứng bướm” đã từng bị đặt câu hỏi về giá trị của “búa”. Nó đã xây dựng Monica bằng cách tích hợp các mô hình lớn hiện có mà không phát triển các mô hình lớn bởi chính nó. Nó tích hợp các chức năng như chat, tìm kiếm, đọc, viết và dịch thuật. Nó cũng tích hợp nhiều kịch bản thực thi nhiệm vụ thông qua các API một cách từng bước. Đến cuối năm ngoái, số lượng người dùng đã đạt hàng chục triệu.

Bây giờ, khi Doubao, Quark và Yuanbao đều đang quảng bá mạnh mẽ các sản phẩm Monica của họ và khi một nhóm nhỏ đang sử dụng công nghệ hiện có để tạo ra đại lý cấp người tiêu dùng chung đầu tiên, đã đến lúc hiểu lại “vỏ bọc”.

Điều gì chính xác là “shells” và “shells”?

Theo quan điểm của Xiao Hong, tất cả các bước đột phá đều được thúc đẩy bởi các mô hình, vốn được định hình và ưu tiên mô hình trước hết. Bên ngoài là để hiển thị các đổi mới kỹ thuật của mô hình một cách mà người dùng có thể nhận biết, và để bao gói khả năng đổi mới của mô hình một cách mà người dùng có thể nhận biết tốt nhất.

Bắt đầu từ định nghĩa này, Ứng dụng DeepSeek (bao gồm hiển thị chuỗi suy nghĩ) là một lớp vỏ của DeepSeek-R1, Cursor là một lớp vỏ của Anthropic Sonnet 3.5, Perplexity là một lớp vỏ của GPT-4, và ChatGPT là một lớp vỏ của InstructGPT.

Khi khả năng của mô hình phát triển nhanh chóng, “vỏ ốc” đó cũng cần phát triển. Sau khi khả năng của mỗi thế hệ mô hình phát triển, điều đó không nhất thiết phải là nhà sản xuất gốc. Đó là một nhà sản xuất bên thứ ba mang lại giá trị mà người dùng có thể cảm nhận được. Giống như Cursor mang lại giá trị mà người dùng có thể cảm nhận được cho Claude 3.5 Sonnet.

Vào ngày 5 tháng 3, kỷ niệm lần thứ hai từ khi phát hành của Monica.im, câu trả lời về lý do tại sao những chục người này đã đạt được trải nghiệm sản phẩm vượt trội hơn so với các Toán tử Nghiên cứu Sâu và OpenAI khác nằm trong việc hiểu biết và thực hành về lớp vỏ.

Làm thế nào để tạo lớp vỏ tốt nhất cho một mô hình mới có thể được sử dụng như một đại lý?

Là người xây dựng của Manus, Zhang Tao tin rằng, “Nhìn vào toàn bộ kiến trúc của nó từ phía sau, chúng ta thấy rằng có rất nhiều công việc chưa hoàn thành cần phải làm ở mỗi nơi, và mỗi trong những nơi đó đều là chìa khóa thành công, và chúng đều là những nơi làm cho bề mặt sản phẩm trở nên khác biệt.”

Từ quan điểm của đội ngũ, ưu điểm quan trọng nhất là tốc độ đổi mới. Cả ứng dụng và mô hình hiện đã đạt đến mức bão hòa tương đối. Khả năng cốt lõi duy nhất cuối cùng là chạy nhanh, mặc dù “bánh xe dữ liệu” và “hiệu ứng mạng” chưa được xác minh.

“Trong một lĩnh vực hoàn toàn mới, mọi thứ đều không chắc chắn và chưa biết trước. Điều quan trọng nhất là tốc độ sáng tạo. Điều chúng tôi cố gắng là khám phá, thử nghiệm và sai lầm theo nhiều hướng khác nhau, và nhanh chóng tìm ra con đường đúng đắn.” Nhóm Manus linh hoạt đủ trong triết lý quản trị, cấu trúc tổ chức và quy trình công nghiệp. Khi cơ hội mới nảy sinh, bạn có thể sử dụng tài nguyên hạn chế để kết nối tất cả tài nguyên của toàn bộ công ty, ra quyết định với tốc độ rất cao, và thích nghi với phản hồi về những sai lầm.

Từ trái qua phải là nhà khoa học trưởng “Butterfly Effect” Peak, CEO Xiao Hong, và đối tác sản phẩm Zhang Tao | Nguồn hình ảnh: Internet

Về kỳ vọng của Manus, Xiao Hong tin rằng “ngay cả khi có thời gian cửa sổ, cũng đáng để thử.” Trong năm qua, tư duy của anh ấy cũng trải qua những thay đổi mạnh mẽ. Ví dụ, anh ấy hiện nay tin rằng “khi bạn nhận ra rằng bạn đang tiến độ sớm hơn, bạn sẽ càng quyết đoán và siêu quyết đoán. Sau khi xem xét hôm nay, tôi cảm thấy rằng Monica vào năm 2023 không đủ quyết đoán.” “Nếu bạn biết rằng bạn đang đổi mới và bạn đang dẫn đầu, bạn nên quyết đoán.”

Tôi không biết liệu Manus có thể mang lại cho Xiao Hong và đội của anh ta trải nghiệm và bước nhảy từ 1 đến N hay không, nhưng đội này biết nhiều nhất về “lớp vỏ” tin rằng sáng tạo với tâm hồn và tay cùng một chỗ, và cũng tin vào hiệu ứng bướm được tạo ra bởi sự sáng tạo. Manus đến từ một khẩu hiệu tại MIT: Mens at manus, nhấn mạnh sự đoàn kết của tâm hồn và tay. Nó không thể chỉ là quan điểm, nó phải được thực hiện, và nó có thể ảnh hưởng đến thế giới thực, đó là kiến thức thực sự.

Trong tương lai, khi càng nhiều khoản tiền gửi phía sau Manus được công khai, một loạt các hiệu ứng bướm rộng hơn sẽ được phát hành.

Thông báo:

Bài viết này được tái bản từ [ GEEEKPARK], và bản quyền thuộc về tác giả gốc [Wan Chen], nếu bạn có bất kỳ ý kiến nào về việc sao chép, vui lòng liên hệ Gate Họcđội, đội sẽ xử lý ngay theo các quy trình liên quan.
Tuyên bố từ chối trách nhiệm: Các quan điểm và ý kiến được thể hiện trong bài viết này chỉ đại diện cho quan điểm cá nhân của tác giả và không hề cung cấp bất kỳ lời khuyên đầu tư nào.
Các phiên bản ngôn ngữ khác của bài viết được dịch bởi đội ngũ Gate Learn và không được đề cập trong Gate.io, bài viết dịch có thể không được sao chép, phân phối hoặc đạo văn.

Mời người khác bỏ phiếu

Nội dung

01 Trải nghiệm sản phẩm độc đáo của Manus đến từ những bài học học được từ việc tạo ra một 'trình duyệt AI'

02 Less Structure，More Intelligence

03 “Đại lý có thể là vấn đề của “sự căn chỉnh” chứ không phải là vấn đề về khả năng cơ bản của mô hình”

04 “Shells have their own uses”, nhóm hiểu rõ nhất về vỏ sò

Bài viết liên quan

Người mới bắt đầu

Tất cả những điều bạn cần biết về GT-Giao thức

GT Protocol là một trong những sản phẩm AI được quảng cáo nhiều nhất của năm 2024, sử dụng công nghệ AI tiên tiến để tạo ra các công cụ giao dịch AI độc đáo. Nó có thể được sử dụng cho quản lý danh mục AI, giao dịch AI và các phương pháp đầu tư trong thị trường CeFi, DeFi và NFT, giúp mọi người dễ dàng khám phá và đầu tư vào các cơ hội Web3 khác nhau. Nó đã thu hút hàng trăm triệu người dùng tham gia.

9/25/2024, 7:10:21 AM

Trung cấp

FDV là gì trong tiền điện tử?

Bài viết này giải thích ý nghĩa của vốn hóa thị trường pha loãng đầy đủ trong tiền điện tử và thảo luận về các bước tính toán định giá pha loãng đầy đủ, tầm quan trọng của FDV và những rủi ro khi dựa vào FDV trong tiền điện tử.

10/25/2024, 1:37:13 AM

Trung cấp

Tương lai của KAIA sau khi thay đổi thương hiệu: So sánh về bố cục và cơ hội của hệ sinh thái TON

Bài viết này cung cấp một phân tích chuyên sâu về hướng phát triển của dự án Web3 Đông Á mới nổi KAIA sau khi cải tổ thương hiệu, tập trung vào định vị khác biệt và tiềm năng cạnh tranh so với hệ sinh thái TON. Thông qua so sánh đa chiều về định vị thị trường, cơ sở người dùng và kiến trúc công nghệ, bài viết cung cấp cho độc giả sự hiểu biết toàn diện về cả KAIA và hệ sinh thái TON, cung cấp cái nhìn sâu sắc về các cơ hội phát triển hệ sinh thái Web3 trong tương lai.

11/19/2024, 3:52:19 AM

Nâng cao

Nghiên cứu Gate: Sự kiện Web3 và các phát triển công nghệ Tiền điện tử (22-27 tháng 2 năm 2025)

Gate Research (22-27/2/2025): Ngày 21/2/Gate.io Launchpool giới thiệu Rivalz Network (RIZ). Cùng ngày, Bybit đã trải qua một vụ vi phạm bảo mật lớn với khoảng 1,5 tỷ đô la ETH bị đánh cắp. Vào ngày 24 tháng 2, Infini phải đối mặt với việc chuyển tiền bất thường do lỗi hoạt động nội bộ, nhưng người dùng đã bồi thường đầy đủ để bảo vệ tài sản của họ. Vào ngày 25 tháng 2, bản nâng cấp Pectra của Ethereum đã gặp phải rào cản trên testnet Holesky, không đạt được xác nhận cuối cùng, điều này có khả năng trì hoãn việc triển khai mainnet. Ngày 26/2, SEC chính thức kết thúc cuộc điều tra về Uniswap. Cũng trong ngày 26/2, Ondo Finance đã công bố tích hợp với mạng lưới Mastercard.

2/27/2025, 10:58:17 AM

Trung cấp

Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất

Mô tả Meta: Sentient là một nền tảng cho các mô hình Clopen AI, kết hợp tốt nhất của cả các mô hình mở và đóng. Nền tảng này có hai thành phần chính: OML và Sentient Protocol.

11/18/2024, 4:12:26 AM

Nâng cao

Tars AI là gì? Khám phá Tương lai của AI và tích hợp Web3

Tìm hiểu cách Tars AI kết nối khoảng cách giữa AI và Web3, cung cấp các giải pháp có khả năng mở rộng và các công cụ đổi mới cho các ứng dụng phi tập trung. Tìm hiểu về các tính năng chính, lợi ích và cách nó hoạt động.

9/22/2024, 1:16:18 PM

Bắt đầu giao dịch

Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá

$100

và

$5500