Sau khi "Cha đẻ của tôm hùm" chê bai internet nhân loại, cuối cùng cũng có người biến điều này thành chuyện để làm

MaticHoleFiller · 2026-04-01T20:46:16+00:00

（Nguồn: Machine Heart）Biên tập｜Trương ThiệnKhông biết mọi người còn nhớ không, vào tháng 3 năm ngoái, đại thần AI Karpathy đã đăng một tweet. Ý chính là: Hiện tại phần lớn nội dung vẫn do con người viết, nhưng trong tương lai, có thể không phải con người đọc những nội dung này mà là AI. Vì vậy, từ bây giờ, chúng ta cần nghĩ cách viết tài liệu sao cho thân thiện hơn với AI.Thành thật mà nói, khi đó tôi còn chưa hiểu rõ ý nghĩa của điều này. Nhiều người dùng có thể cũng vậy, thậm chí có người nói «Hiện tại còn quá sớm để nghĩ đến chuyện này, dù sao hiện tại chủ yếu vẫn là con người truy cập mạng».Nhưng chỉ trong vòng một năm, tình hình đã thay đổi. Rất nhiều người sau khi trải nghiệm «Lobster», thậm chí còn lười biếng đến mức không muốn tự tay sắp xếp các tệp trên desktop nữa, huống hồ là việc tìm kiếm tài liệu trên mạng – những công việc vất vả và bẩn thỉu.Gần như chắc chắn rằng

MaticHoleFiller

2026-04-01 20:46:16

（Nguồn: Máy móc Chi Tâm）

Biên tập｜Trương Khiêm

Không biết mọi người còn nhớ không, vào tháng 3 năm ngoái, đại sư AI Karpathy đã đăng một dòng tweet. Ý chính là: hiện tại phần lớn nội dung vẫn được viết cho con người, nhưng trong tương lai, người đọc những nội dung này có thể không phải là con người mà là AI. Vì vậy, từ bây giờ trở đi, chúng ta phải bắt đầu suy nghĩ cách viết tài liệu sao cho thân thiện hơn với AI.

Nói thật, khi đó nhìn thấy quan điểm này, tôi vẫn chưa phản ứng kịp nó có nghĩa là gì. Có lẽ nhiều cư dân mạng cũng vậy; thậm chí có người nói: “Việc cân nhắc chuyện này còn quá sớm, dù sao thì hiện tại lên mạng chủ yếu vẫn là con người”.

Nhưng chỉ trong vòng một năm ngắn ngủi, tình hình đã thay đổi. Nhiều người đã trải nghiệm “Tôm hùm” xong, đến cả việc tự tay sắp xếp một file trên desktop cũng lười; chứ đừng nói đến việc tự mình lùng thông tin trên mạng—đó là công việc bẩn thỉu và mệt nhọc.

Gần như có thể khẳng định là chuyện mà Karpathy nói “AI trở thành lực lượng chủ lực khi lên mạng” sẽ sớm trở thành hiện thực, bởi con người đã nếm được vị ngọt thì không quay lại được nữa. Nhưng hiện tại internet của chúng ta đang ra sao? Như một cư dân mạng từng nói—vẫn là “con đường đá vụn thời xe ngựa”.

Với Agent, con đường này đi đâu cũng vấp—các chương trình xác thực, đăng nhập thì bị kẹt là kẹt; các công cụ tìm được từ trên mạng phải thử từng cái một; token dùng như thể miễn phí (thực ra rất đắt); ngay cả khi nhiệm vụ thành công cũng phải chờ nửa ngày, giống như ngày xưa quay số lên mạng.

Lưu Hồng Đào, người đã đi qua thời kỳ internet trên PC, rồi đến internet di động, nói với tôi rằng: tình trạng hiện nay thực sự khó chấp nhận. Phải biết rằng tiêu chuẩn về tính khả dụng của internet con người là 99,9%, và nhóm người của họ thậm chí từng “đấu” để con số này gắn thêm nhiều chữ số 9 hơn nữa. Còn hiện tại, tỷ lệ thành công khi Agent gọi công cụ bên ngoài chỉ khoảng 60%—đây còn là kết quả của việc gọi từng bước; đi thêm vài bước thì đã có thể rơi xuống dưới 30%.

Vì vậy, khi “Cha đẻ của Tôm hùm” Peter Steinberger than phiền trong một cuộc phỏng vấn rằng cơ sở hạ tầng internet hiện nay cực kỳ “không thân thiện” với Agent, Lưu Hồng Đào đã đồng cảm mạnh mẽ. Và vấn đề mà Peter nêu chính là hướng khởi nghiệp mà anh ấy đã nhìn thấy tiềm năng từ trước (năm kia) và đến mùa xuân năm ngoái bắt đầu chính thức tham gia—Agent Internet Infra.

Cái nhìn cốt lõi của Peter Steinberger là: hiện tại internet không được thiết kế cho agent, và còn đang ngày càng trở nên bất lợi cho agent vì bị phong tỏa, CAPTCHA, hệ thống quyền hạn, thiếu CLI/API… Do đó, cơ sở hạ tầng internet/phần mềm thế hệ kế tiếp phải được tái cấu trúc theo hướng thân thiện với agent. (Phụ đề do AI tạo)

Công ty mới do Lưu Hồng Đào thành lập có tên là AgentEarth. Ba người trong nòng cốt đều có lý lịch rất vững. Anh ấy từng làm Tổng giám đốc tại “Cloud Wisdom” thuộc công ty kỳ lân vận hành thông minh, có kinh nghiệm kiểm chứng quy mô hóa hạ tầng cấp doanh nghiệp từ 0 đến 1. CTO Đơn Minh Huy (Lucas) là người xây dựng sớm hệ thống vận hành tự động hóa của Didi, với hệ thống ghép nối thời gian thực quy mô lớn cho hàng trăm triệu người và lượng đặt xe trực tuyến khổng lồ; anh ấy có kinh nghiệm xây dựng và vận hành. Nhà khoa học trưởng, Giáo sư Xue, thì nhiều năm chuyên sâu vào công nghệ mạng tiên phong cấp quốc gia, hệ ngăn xếp giao thức tầng thấp là thế mạnh của ông.

CEO AgentEarth

Lưu Hồng Đào (trái) và CTO Đơn Minh Huy (phải)

Sự kết hợp như vậy rõ ràng không phải nhắm đến việc làm một công cụ Agent đơn giản. Theo lời Lưu Hồng Đào, thứ họ làm là công việc thuộc mảng cơ sở hạ tầng: ở tầng dưới, xây cho Agent Internet một “đường cao tốc vận chuyển hàng hóa” để việc truyền dữ liệu chạy lên được vừa ổn định vừa nhanh; phía trên thì mở một “cửa hàng tự doanh cao cấp”—không phải để con người ghé vào xem, mà để phục vụ Agent như một người dùng đầu cuối thực sự: vào cửa hàng là có thể gọi nhanh các công cụ chất lượng cao đã được sàng lọc và quản trị. Cái đầu dựa vào các giao thức truyền tải thế hệ mới mà họ đã phát triển nhiều năm; cái sau thì làm vững phần tổng hợp công cụ, lưu trữ (hosting) và điều phối thông minh, để Agent không còn phải như ruồi không đầu đi thử khắp nơi, đâm vào khắp nơi nữa—tiết kiệm thời gian quý báu và token.

Còn cụ thể thì làm như thế nào, Lưu Hồng Đào cũng đã chia sẻ chi tiết.

Internet được thiết kế cho con người

Quá hố đối với Agent

Gần đây, Anthropic và OpenAI lại “thổi bùng” một từ khóa nữa, gọi là Harness Engineering. Trong blog của mình, Anthropic nói rằng với cùng một mô hình, cùng một prompt, trò chơi tạo ra ban đầu không thể chơi được; nhưng nếu đổi sang một cách chạy và môi trường khác, thì có thể chạy ra một trò chơi hay.

Các tổ chức tiên phong này dùng thí nghiệm để nhắc nhở mọi người rằng—dù việc cải tiến bản thân mô hình là quan trọng, nhưng môi trường bên ngoài xoay quanh việc chạy mô hình cũng không thể xem nhẹ, nếu không sẽ ảnh hưởng đến khả năng phát huy của mô hình lớn.

Điều này cũng giải thích vì sao OpenAI từ năm 2024 đã tuyên bố rằng mô hình lớn đã đạt mức năng lực của tiến sĩ ở một số phương diện, nhưng đến tận năm nay, phía tạo năng suất mới bắt đầu có cảm nhận “sờ được” trong thực tế.

Việc xây dựng môi trường này còn phức tạp hơn nhiều so với tưởng tượng. Trong một hai năm qua, các kỹ sư trong lĩnh vực Agent Infra đã đang thử giải quyết một số vấn đề như lưu trữ trí nhớ dài hạn, điều phối chạy—cung cấp hệ thống hỗ trợ tầng nền để Agent vận hành ổn định. Nhưng “cơn sốt Tôm hùm” lần này lại phơi bày rõ một điểm yếu—lời gọi từ bên ngoài. Phải biết rằng, ngay cả một thao tác đặt vé đơn giản, Agent cũng phải gọi hơn chục lần công cụ bên ngoài. Vì vậy, khi Agent bắt đầu “làm việc như con người lên mạng”, tầng mạng trở thành chiến trường mới.

Lưu Hồng Đào nhắc rằng, trước chiến trường mới này, cơ sở hạ tầng liên quan phải tuân theo logic mới, vì hành vi lên mạng của Agent hoàn toàn khác với con người.

Con người lên mạng là mở trình duyệt, tìm kiếm từ khóa, rồi bấm vào những trang web mình quan tâm. Sau đó là duyệt, suy nghĩ, đánh giá. Thời gian con người ở lại trên một trang web đơn lẻ thường khá lâu, nhưng toàn bộ hành vi lên mạng không quá phức tạp; hơn nữa còn có các kỹ thuật cache như CDN (một lần cache phục vụ một đám người) để đảm bảo tốc độ, các thiết kế UI tinh xảo để nâng hiệu suất, và nhiều công cụ đã được dùng quen qua nhiều năm nên vận hành khá thuận tiện.

Nhưng Agent thì khác: nó không “xem” để lấy thông tin. Nó lên mạng để “làm xong việc”. Một nhiệm vụ của nó cần các công cụ trải qua nhiều mô hình và nền tảng, chuỗi thực thi dài; chỉ cần một chỗ bị kẹt, cả nhiệm vụ sẽ rơi vào hố đen thử sai. Ngoài ra, yêu cầu về tốc độ của nó còn cao hơn con người, vì nó không cần thời gian phản ứng, chỉ cần kết quả nhanh nhất có thể để ngay lập tức chuyển sang bước tiếp theo.

Tuy nhiên, thực tế là hiện nay trên internet, hầu hết trang web và công cụ vẫn được thiết kế cho con người (giống như Peter đã đề cập trong cuộc phỏng vấn: Agent cần bấm trên trang web những xác thực như “I’m not a robot”). Chúng không được tuyển chọn và thích ứng riêng cho Agent, nên chuỗi dài của Agent rất dễ bị đứt. Hơn nữa, có những thứ Agent lấy từ việc lên mạng chỉ là thứ nó tự cần (ví dụ: tạo ra một hình ảnh nào đó); người khác dùng lại không được, nên CDN sẽ mất tác dụng, tốc độ cũng không thể tăng lên.

Khi các đặc tính này chồng lên nhau, cơ sở hạ tầng internet của con người bắt đầu “không hợp môi trường” trước Agent. Trong khi đó, Agent Internet hiện vẫn đang trong giai đoạn phát triển hoang dã: công cụ bên ngoài lẫn lộn, giao diện rối loạn, chất lượng không đồng đều; trong quá trình gọi, Agent liên tục “mất phương hướng”, vừa thử sai vừa truyền lặp lại ngữ cảnh, lãng phí một lượng lớn token một cách vô ích, khiến tốc độ hoàn thành nhiệm vụ cũng khó tăng lên.

Nói đến đây, những việc mà Agent Internet Infra cần làm rất rõ ràng: đó là tạo ra hệ thống giao thức mạng tầng nền và middleware để hàng loạt tác nhân thông minh có thể tự phát hiện, kết nối an toàn và hợp tác đáng tin cậy. Tập trung giải quyết vấn đề làm sao Agent kết nối với bên ngoài, làm sao Agent hợp tác liền mạch như con người sử dụng internet. Năng lực cốt lõi bao gồm: xác thực danh tính, giao thức truyền thông, quản trị quyền hạn, gọi công cụ xuyên nền tảng, tối ưu truyền dữ liệu, thanh toán giao dịch, quản lý an toàn… và nhiều nội dung khác.

Hiện đã có một số công ty bắt đầu đẩy mạnh theo hướng này, ví dụ Cloudflare đã phát hành Markdown for Agents để giúp Agent đọc trang web; Google cũng đã công bố WebMCP để nối liền môi trường trình duyệt với tài nguyên tính toán cục bộ… Nhưng nhìn chung, hướng này vẫn còn ở giai đoạn phát triển sớm; các nhà cung cấp Agent Internet Infra thế hệ mới vẫn còn thiếu.

Internet dành cho Agent

Làm sao tiết kiệm tiền và thời gian?

Trong hướng Agent Internet Infra, logic khởi nghiệp của Lưu Hồng Đào và những người khác có một “mỏ neo” cốt lõi: từ ngày đầu, coi Agent là người dùng chính của mạng—tức là end user (trước đây mặc định là con người). Điểm này nhất quán với phán đoán của Karpathy.

Một khi đã bám chặt vào mỏ neo này, hướng tối ưu cơ sở hạ tầng mạng sẽ chuyển từ “phục vụ trải nghiệm của con người” sang “phục vụ tỷ lệ hoàn thành và hiệu suất hoàn thành nhiệm vụ”, từ “nền tảng cung cấp kết nối” sang “nền tảng chịu trách nhiệm về kết quả”. Nói cách khác, họ chủ yếu cân nhắc: “Tôm hùm” của bạn có thể mượn nền tảng của tôi để hoàn thành nhiệm vụ với chất lượng cao, độ tin cậy cao và hiệu suất cao hay không; tôi phải chịu trách nhiệm về kết quả của bạn; tôi phải giúp bạn tiết kiệm tiền và thời gian.

Quan trọng nhất là: điều này không dừng lại ở khái niệm, mà đã hiện thực hóa thành quyết định sản phẩm.

Điểm rõ ràng nhất là họ cố tình không làm giao diện dành cho con người, không làm trải nghiệm phát triển phức tạp, mà chỉ làm các giao diện Agent chuẩn hóa. Đằng sau đó thực ra là một phán đoán rất kiên định: tương lai không phải là nhà phát triển cấu hình công cụ, mà là Agent tự lắp ráp công cụ. Nếu bạn tin điều đó, thì mọi tầng được thiết kế để “thuận tiện cho thao tác của con người” đều chỉ là bước chuyển tiếp ngắn hạn.

Vậy họ làm thế nào để biến “chất lượng cao, độ tin cậy cao” thành điểm khác biệt? Thực ra có ba tầng trong ngăn xếp kỹ thuật.

Ở tầng giữa, họ chuyển “vấn đề chất lượng công cụ” từ phía Agent sang phía nền tảng. Cách làm phổ biến hiện nay là để Agent tự chọn công cụ, tự thử sai, dùng nhiều token hơn để lấp chỗ hỏng. Kết quả là chi phí cao, tỷ lệ thành công thấp và không kiểm soát được. Ở tầng này, họ tiếp quản việc đó: tạo cho Agent một “cổng đơn” để truy cập dịch vụ bên ngoài. Tức là Agent không cần biết công cụ nào dùng tốt; nền tảng đã chọn sẵn và “dự phòng” sẵn cho nó. Nếu có sự cố thì lập tức chuyển sang phương án khác. Việc thanh toán cũng được thống nhất tại đây, dữ liệu minh bạch hoàn toàn; người đứng sau Agent có thể thấy đã dùng những công cụ nào, gọi bao nhiêu lần, token được dùng rõ ràng—không còn là “cái hố nuốt tiền” mù mịt.

Còn tầng phía trên thì tập trung dùng logic “tự doanh” để đảm bảo chất lượng giai đoạn đầu. Ban đầu họ không mở hệ sinh thái mà tự chọn công cụ, nhấn mạnh sự ổn định, hiệu suất và chất lượng—giống như sàn tự doanh Jingdong thuở đầu: điểm cốt lõi là giúp “những chú Tôm hùm” hoàn thành nhiệm vụ với chất lượng cao. Khi đã có lưu lượng truy cập, họ cũng sẽ mở cho bên thứ ba vào; và áp dụng một thuật toán gợi ý công cụ dựa trên mô hình lớn cùng chiến lược tối ưu hóa lời gọi để biến quá trình này thành cực kỳ thông minh.

Tầng phía dưới nữa, cũng là phần “cứng” nhất của họ: đẩy “độ tin cậy” xuống tầng truyền tải, dùng giao thức điều phối tích hợp “truyền—lưu—tính” do tự nghiên cứu để tăng tốc truyền dữ liệu tầng nền.

Trong thử nghiệm môi trường thực, giao thức này nhanh hơn 2-10 lần so với giao thức mã nguồn mở tốt nhất hiện nay trong ngành—QUIC của Google; thử nghiệm gần đây thậm chí đạt tới hơn chục lần. Điều đó có nghĩa là: nếu Agent của bạn muốn lấy file, hình ảnh, video từ xa—đặc biệt là những nội dung mang tính cá nhân hóa vừa mới được tạo—thì giao thức này sẽ nhanh hơn rất nhiều so với cách truyền thống.

Người trong nghề có thể đều biết: “giao thức” là một hệ thống các quy tắc tự nhất quán, vì vậy việc nghiên cứu phát triển giao thức không phải việc làm trong thời gian ngắn; không thể tách thành các module để triển khai song song như viết APP. Làm giao thức mới giống như nuôi một “loài mới”: phải bắt đầu từ một hạt giống, rồi theo một trình tự nhất định mà chậm rãi lớn lên. Mỗi chặng đều phải chờ chặng trước được định hình triệt để rồi mới làm tiếp; dù có gom thêm nhiều kỹ sư thì cũng không rút ngắn được thời gian “đợi nó lớn”. Hơn nữa, trong thiết kế giao thức còn có những “kiến thức ẩn”—như các tình huống biên của hành vi mạng, những cái bẫy đã từng trải qua—đều phải dựa vào sự tích lũy dài hạn. Lưu Hồng Đào nói rằng: giao thức này cũng không phải làm ra trong một sớm một chiều; chu kỳ phát triển của họ đều tính theo hàng chục năm. Phần tích lũy kinh nghiệm sớm nhất thực ra là để tối ưu TCP/IP, không ngờ giờ lại trở thành rào cản công nghệ cốt lõi của công ty.

Cái trần của chuyện này

Có thể cao hơn cả tưởng tượng

Trong thời đại internet trên PC và internet di động, số lượng người dùng mạng và sự tăng trưởng thời gian người dùng online thường được xem là động lực cốt lõi của tăng trưởng toàn thị trường. Nhưng khi hai thứ này tiến sát giới hạn, tăng trưởng đó đã chạm trần.

Sự xuất hiện của đường đua Agent Internet đang viết lại luật chơi. Một công ty hay một cá nhân có thể triển khai hàng trăm đến hàng nghìn Agent; một Agent có thể đồng thời chạy nhiều tác vụ; và những Agent này cũng không cần ngủ. Điều đó có nghĩa là, giới hạn về lưu lượng và giá trị mà Agent Internet Infra gánh vác hiện tại vẫn còn khó ước lượng.

Điều này cũng đồng nghĩa rằng tầng này rất dễ mọc lên một loạt các “đại công ty” mới. Nhìn lại thời PC internet và mobile internet, hầu như ở cuối mỗi tầng cơ sở hạ tầng đều có một công ty độc lập ra đời, vì vấn đề đủ phổ dụng, nhu cầu đủ cứng; sớm muộn gì cũng sẽ có người biến nó thành nền tảng. Agent Internet cũng vậy, và lần này quy mô người dùng lẫn cường độ gọi còn cực đoan hơn: nhiều vấn đề nền tảng hiện còn để trống, nên chỗ trống dành cho người điền lại càng nhiều.

Ở giai đoạn vừa chạy đà này, AgentEarth đã chiếm một vị trí không tệ.

Một mặt là họ đánh giá sớm và quyết đoán: ngay từ đầu đã xây hệ thống theo hướng “Agent là người dùng”, tập trung vào việc hoàn thành nhiệm vụ một cách tin cậy và chất lượng cao. Mặt khác là cấu trúc đội ngũ khá hiếm—năng lực giao thức tầng dưới trong thời gian ngắn khó có thể bị bắt kịp; người từng “ra trận” trong bối cảnh “hàng trăm triệu người dùng, ghép nối tài nguyên khổng lồ theo thời gian thực” cũng thực sự hiếm. Các hệ thống kiểu này yêu cầu cực đoan về độ ổn định, hiệu suất và dung lỗi. Thông thường cũng ít có cơ hội để luyện tập đến mức đó. Khi quy mô lời gọi của Agent lên, những kinh nghiệm này sẽ trở nên vô cùng giá trị, và cũng không thể bù đắp trong thời gian ngắn.

Ngay ngày hôm qua, AgentEarth vừa phát hành bản thử nghiệm sản phẩm, bắt đầu cho thử nghiệm quy mô nhỏ. Liên kết thử nghiệm như sau: Agentearth.ai

Những độc giả quan tâm cũng có thể quét mã để vào nhóm, trao đổi trải nghiệm:

Nguồn tin phong phú, giải thích chính xác, tất cả trên ứng dụng Tài chính Sina

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.