Họ đã tạo ra "Điện thoại Doupack" không thể bị kiểm duyệt, đã nhận được vốn đầu tư thiên thần ở mức hàng chục triệu

robot
Đang tạo bản tóm tắt

“帮我点一杯奶茶。”

“帮我在京东上买一个篮球。”

“帮我在猫眼上买一张电影票。”

Cuộc chiến giành quyền kiểm soát điện thoại của Doubao và các ứng dụng khác vẫn chưa có kết quả rõ ràng, thao tác đặt đồ ăn của Qianwen chỉ mới mở rộng hệ sinh thái của chính mình, còn những con tôm hùm nhỏ đang nổi đình đám trên mạng (OpenClaw) cũng chưa thể giải quyết được vấn đề tự động hóa đa nền tảng.

Nhưng gần đây, hai kỹ sư đến từ một tập đoàn phần cứng lớn là Trương Chí Vũ và Đan Văn Bằng đã sử dụng Agent ZeroFlow do tự phát triển. Dựa trên mô hình lớn nội địa có khả năng đa mô hình, hoạt động hoàn hảo trên thiết bị Android, trình duyệt Chrome và máy tính để bàn, ZeroFlow có thể giống như người thật nhìn màn hình, nhấp, trượt, nhập liệu, hoàn thành một loạt các nhiệm vụ tự động hóa phức tạp xuyên nền tảng.

Các hướng tiếp cận công nghệ khác nhau

Trong nỗ lực thực hiện nhiệm vụ tự động hóa đa nền tảng, Doubao và AutoGLM của Zhipu đã chọn các hướng công nghệ hoàn toàn khác nhau.

Doubao hợp tác với các nhà sản xuất điện thoại để có được quyền truy cập rất cao, có thể bỏ qua các bước cấp phép của người dùng hoặc ứng dụng, nhưng điều này đã kích hoạt phản kháng từ các nhà phát triển ứng dụng, dẫn đến một loạt các hành động khóa tài khoản sau đó.

AutoGLM mã nguồn mở của Zhipu dựa trên quyền thao tác lấy từ giao thức adb, nhưng chế độ này không thể chạy trực tiếp trên điện thoại của người dùng, vì vậy AutoGLM chọn chế độ máy ảo từ xa, dùng adb để thao tác điện thoại của người dùng trong môi trường máy ảo. Chế độ này có chi phí tin cậy cao hơn.

Trong khi đó, giải pháp của ZeroFlow chủ yếu dựa vào Dịch vụ Trợ năng của Android (Accessibility Service). Dịch vụ trợ năng vốn là chức năng hỗ trợ hệ thống dành cho người dùng khiếm thị, sau khi xin phép, Agent có thể đọc nội dung màn hình, lấy vị trí và nội dung của tất cả văn bản, nút bấm, ô nhập trên giao diện hiện tại. Đồng thời, Agent có thể mô phỏng thao tác của con người như nhấp, nhấn giữ, trượt, nhập liệu. Phương án này phụ thuộc rất nhiều vào khả năng đa mô hình của Agent và mô hình nền, về lý thuyết đây là giải pháp không thể bị các nhà phát triển ứng dụng khóa chặt.

Nguyên lý nghe có vẻ đơn giản, nhưng quá trình phát triển thực tế lại phức tạp hơn nhiều. Trương Chí Vũ chia sẻ với các nhà đầu tư rằng một trong những khó khăn lớn nhất là nhiều trang web trong nước khi thiết kế ban đầu, nhằm chống lại thao tác tự động (cơ bản là mở rộng của “chống web scraping” và “chống gian lận”), đã tích hợp nhiều bước xác thực và các “ẩn” trong kỹ thuật. Ví dụ, bạn thấy một nút ở đây, nhưng rất có thể phần tử thực sự nằm ở một vị trí rất xa. Điều này khiến việc hiểu trang web từ mã nguồn trở nên rất khó khăn, nhưng từ góc độ đa mô hình thì lại dễ hơn nhiều, chính điều này là lý do tại sao một số mô hình lớn không thể đọc được liên kết trang web nhưng vẫn có thể đọc được ảnh chụp màn hình của trang.

Ngược lại, làm thế nào để dùng ít ảnh chụp màn hình nhất để Agent hiểu đúng ý định cũng là một thách thức kỹ thuật cần tối ưu.

Đan Văn Bằng nói với các nhà đầu tư rằng, các cửa sổ quảng cáo, các chuyển hướng tự động trên trang web đều gây nhiễu cho khả năng hiểu đa mô hình. Dùng mô hình đa mô hình mạnh nhất để hiểu chắc chắn sẽ cho ra câu trả lời chính xác nhất, nhưng chi phí Token tiêu thụ lại không phải là điều mà người dùng phổ thông có thể chịu đựng. Vậy làm thế nào để dùng mô hình rẻ hơn, chụp ít ảnh hơn mà vẫn đạt hiệu quả hiểu tốt nhất, đó cũng là một bài toán kỹ thuật rất thử thách.

Cân bằng giữa an toàn và tiện lợi

Khi nói về việc có lo lắng các tập đoàn lớn sẽ tạo ra các sản phẩm đồng dạng hay không, Trương Chí Vũ cho biết không lo lắng. Các tập đoàn lớn dựa trên sự cách ly hệ sinh thái của chính họ, dù có công nghệ này đi nữa cũng không thể thực hiện tự động hóa thực sự xuyên nền tảng, xuyên thiết bị, vì một khi một tập đoàn lớn tham gia, các tập đoàn khác sẽ phản ứng lại. Đây chính là lợi thế của các đội khởi nghiệp.

ZeroFlow học hỏi ý tưởng mở của OpenClaw, đã thiết kế và tối ưu sâu về kiến trúc liên quan đến an toàn, khả năng thích ứng của mô hình, và tính tiện lợi.

Rủi ro an toàn chính của OpenClaw nằm ở chỗ nó là “AI có khả năng gọi công cụ” với khả năng thực thi lệnh shell, đọc ghi file, gửi tin nhắn, truy cập mạng. Nếu prompt bị tấn công hoặc dẫn dụ, có thể dẫn đến việc kiểm soát máy chủ, rò rỉ dữ liệu nhạy cảm, v.v.

ZeroFlow đối phó với rủi ro này bằng cách cách ly sandbox + cơ chế làm mờ dữ liệu của mô hình nhỏ. Một mặt, trong workspace, thông tin nhạy cảm của người dùng như khóa, dữ liệu nhạy cảm sẽ bị cách ly, ẩn đi, khiến AI cũng khó có thể dễ dàng tìm thấy các tập tin nhạy cảm đó; mặt khác, dùng mô hình nhỏ để giám sát tất cả các tương tác thông tin giữa người dùng và mô hình lớn, khi phát hiện thông tin nhạy cảm sẽ tiến hành mã hóa, làm mờ. Như vậy, các tập tin nhạy cảm lưu trữ trên đám mây của người dùng sẽ không dễ dàng bị tìm ra, dù có tìm cũng không dễ phân tích. Với cơ chế kép này, ZeroFlow giúp người dùng phổ thông vừa tận hưởng tiện ích của Agent, vừa tối đa hóa bảo vệ quyền riêng tư.

Về mặt tiện lợi, ZeroFlow đã hạ thấp ngưỡng sử dụng của “tôm hùm” xuống mức mới “thấp”. Quá trình triển khai cực kỳ gần gũi với thói quen sử dụng sản phẩm internet, gần như không cảm nhận được. Chỉ cần mở trình duyệt, đăng ký một tài khoản trên website, rồi bắt đầu dùng trong khung chat.

OpenClaw do dựa trên chuẩn Tool Calling của OpenAI/Anthropic, nên luôn gặp một số vấn đề khi thích ứng với các mô hình nội địa. Trong khi đó, ZeroFlow đã tối ưu kỹ thuật cho các mô hình lớn phổ biến trong nước như Kimi, DeepSeek, không chỉ nâng cao trải nghiệm gọi công cụ, mà còn tối ưu luôn kỹ thuật prompt, giúp rút ngắn trung bình gần 40% độ dài prompt, giảm rõ rệt chi phí Token.

Trương Chí Vũ nói với các nhà đầu tư rằng, chi phí Token của người dùng phổ thông khi dùng ZeroFlow có thể giảm khoảng 30%.

Từ trí tuệ lập trình đến Agent tổng quát

Sự ra đời của ZeroFlow không phải là một chiêu trò bắt chước qua loa. Khi làn sóng mô hình ngôn ngữ lớn mới bắt đầu trỗi dậy, Trương Chí Vũ và đội của Đan Văn Bằng đã đứng ở tuyến đầu. Thời điểm đó, họ không chạy theo một câu chuyện lớn nào, mà tập trung giải quyết một vấn đề cực kỳ cụ thể: làm thế nào để các kỹ sư thoát khỏi những chi tiết mã phức tạp, thực sự dùng trí tuệ để sáng tạo. Vì vậy, họ đã nội bộ phát triển thế hệ đầu tiên của trí tuệ lập trình, một “đối tác mã” hiểu ngữ cảnh, dự đoán ý định, chủ động bổ sung logic.

Công cụ này âm thầm phát triển trong hệ thống kỹ thuật của họ. Từ thời GPT-3.5 với các prompt sơ khai, đến ghi nhớ nhiều vòng đối thoại, gọi công cụ, vòng phản hồi kiểm tra mã… mỗi lần cập nhật đều dựa trên nhu cầu thực tế, tiến hóa theo từng bước. Trong vài năm, hệ thống này đã giúp họ nâng cao hiệu quả nghiên cứu và phát triển gấp nhiều lần.

Vào thời điểm bùng nổ của OpenClaw, Trương Chí Vũ nhớ lại, họ ngồi trong phòng họp, xem các video trình diễn, im lặng rất lâu. Không phải vì sốc, mà vì họ nhận ra một thứ quen thuộc, con đường họ đã đi, đang được thế giới rộng lớn hơn đi lại lần nữa.

Lúc đó, họ nhận ra rằng, không chỉ là một công cụ lập trình, mà còn là một phương pháp luận về “làm sao để trí tuệ nhân tạo thực sự hiểu ý định của con người và liên tục thực thi.”

“Nếu phương pháp này giúp các kỹ sư tăng gấp đôi hiệu quả, tại sao không thể giúp tất cả mọi người trong các ngành khác cũng được giải phóng?” Chính vì vậy, ZeroFlow ra đời.

“Người đi nhanh hơn”

Từ trái sang phải là Đan Văn Bằng, Trương Chí Vũ

“Tôi nghĩ Agent thực sự có thể nâng cao chất lượng cuộc sống của mọi người, mọi người đều nên được giải phóng để làm những việc cao hơn, nhưng vấn đề lớn nhất hiện nay là chi phí tiếp cận của người bình thường vẫn còn quá cao. Không chỉ là sở hữu một con tôm hùm, mà còn để con tôm hùm đó có thể tự do tự động hóa xuyên nền tảng, giúp chủ nhân giải quyết các vấn đề trong thực tế. Vì vậy, chúng tôi muốn tạo ra một Agent không cần tiếp cận, chỉ cần mở trình duyệt là dùng được.” Trương Chí Vũ nói.

“ZeroFlow không phải là thay thế trợ lý lập trình, mà là chuyển đổi mô hình cốt lõi của trí tuệ lập trình (hiểu ý định → lập kế hoạch → gọi công cụ → liên tục thực thi → phản hồi, cải tiến) sang các lĩnh vực công việc tri thức rộng hơn. Phân tích tài chính, quy trình vận hành, sản xuất nội dung, khai thác dữ liệu… bất cứ nơi nào có lặp lại, có logic, có đầu ra, đều là lĩnh vực ZeroFlow có thể chiếm đóng.” Đan Văn Bằng nói.

Khi được hỏi tại sao không chọn phát triển ý tưởng này trong công ty cũ, Trương Chí Vũ và Đan Văn Bằng nhìn nhau cười: “Tôi nghĩ một nhóm người chắc chắn sẽ đi xa hơn, nhưng một người sẽ đi nhanh hơn. Trong thời đại này, nhanh có thể còn quan trọng hơn.”

Hiện tại, Công ty Y Zero đã nhận được gần chục triệu vốn đầu tư vòng gọi vốn thiên thần từ các nhà đầu tư cá nhân và quỹ Hàng Thế, số tiền này sẽ chủ yếu dùng để hoàn thiện và mở rộng các chức năng sản phẩm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.35KNgười nắm giữ:2
    0.10%
  • Vốn hóa:$2.35KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.35KNgười nắm giữ:2
    0.00%
  • Ghim