Chiếm lĩnh 15 lỗ hổng zero-day hàng đầu: Khung trình gỡ lỗi hệ thống đồng thuận của trí tuệ nhân tạo do 0G Lab phối hợp cùng nhóm của Đại học Quốc gia mới, Bắc Kinh và Bắc Bưu xây dựng

Nguồn gốc bài viết: Machine Heart

Bảo bối của hệ thống phân tán — Giao thức đồng thuận (Consensus Protocols), từ lâu đã là "Địa ngục lỗi" của các kỹ sư hạ tầng hàng đầu. Do trạng thái cực kỳ phức tạp, nhiều nút liên kết chặt chẽ, các phương pháp kiểm thử truyền thống và LLM đơn thể hầu như bất lực trước các Deep Bug (lỗ hổng logic sâu) cứng nhắc.

Gần đây, bài báo mới nhất trình bày tại ICML 2026, từ các nhà nghiên cứu của 0G Labs cùng các nhóm hàng đầu tại Đại học Quốc gia Singapore, Đại học Bắc Kinh, Đại học Bưu chính Viễn thông Bắc Kinh, đã đề xuất khung kiểm thử tự động đầu tiên kết hợp kiến thức lĩnh vực và đa tác nhân (Agent) của mô hình lớn — Agora.

Khung này qua kiến trúc sáng tạo, trực tiếp nhắm vào điểm đau của các giao thức, đã "một phát" phát hiện 15 Deep Bug cấp giao thức chưa từng biết trong các giao thức tiêu chuẩn như Raft, EPaxos, HotStuff, BullShark — cả trong ngành công nghiệp lẫn học thuật. So sánh với các mô hình lớn nguyên bản như GPT-5.2, Claude 4.5, đều thất bại, không thể phát hiện ra. Trong bối cảnh hệ thống đa tác nhân (Multi-Agent) và "kiểm tra an toàn dựa trên tác nhân" (Agentic Quality Control) trở thành xu hướng nóng nhất năm 2026, Agora không chỉ là một bài báo, mà còn là một giải pháp công nghiệp có thể ứng dụng thực tế.

Bài báo: "Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents"

  1. Bối cảnh: 0G và NUS hợp lực mạnh mẽ, tích lũy kiến thức hệ thống lâu dài và kết hợp mô hình đa tác nhân (Multi-Agent) qua các thế hệ ===================================================

Tiến trình phát triển của các giao thức đồng thuận phân tán vừa là lịch sử sáng tạo của các thiên tài, vừa là lịch sử vấp ngã của vô số kỹ sư hàng đầu. Như lời của Lamport, người đoạt giải Turing, đảm bảo tính đúng đắn của giao thức phân tán khó khăn chẳng kém gì đi qua mê cung liên tục rung lắc trong bóng tối. Trên con đường "địa ngục" này, thị trường đang chuyển hướng âm thầm: theo Gartner, lượng tư vấn doanh nghiệp về hệ thống đa tác nhân đã tăng hơn mười lần trong hơn một năm, thị trường nền tảng đa tác nhân cũng bước vào giai đoạn mở rộng nhanh gần như gấp đôi mỗi năm — việc dùng "đa tác nhân phối hợp" để kiểm thử hệ thống nền tảng cứng nhất đang từ ý tưởng tiên phong trở thành nhu cầu công nghiệp.

Đối mặt với con đường địa ngục này, các ông lớn công nghệ với hào quang đã bắt đầu khám phá quy mô lớn. Ví dụ, Anthropic, một trong những công ty hàng đầu ngành, gần đây trong dự án Glasswing của Claude Code, cố gắng dùng tác nhân để thử nghiệm hạ tầng nền tảng, nhưng kiến trúc vẫn cực kỳ phụ thuộc vào các mô hình lớn thương mại hàng đầu, chi tiết dự án không rõ ràng, chỉ hợp tác kín với một số tổ chức công nghệ lớn và tập đoàn xuyên quốc gia. Nguy hiểm hơn, các giải pháp của các ông lớn này có thể tiêu tốn lượng token khủng khiếp trong quá trình vận hành, tạo ra rào cản về năng lực tính toán và tài chính, khiến các startup và doanh nghiệp nhỏ khó tiếp cận.

Liệu các công ty nhỏ, cộng đồng mã nguồn mở có bị định sẵn không thể sử dụng các công cụ kiểm thử lỗ hổng tự động hàng đầu?

Các kỹ sư của 0G Labs cùng Liu Xiang của NUS, Song Sa của Bưu chính Viễn thông Bắc Kinh, thầy Sun Yong phối hợp với nghiên cứu sinh của Đại học Bắc Kinh, Trương Triệu, đã tích hợp kiến thức sâu về lĩnh vực Agent của họ vào hệ thống, mở ra cuộc cách mạng "ít người hơn, mạnh hơn" — công trình đã gửi bản thảo dự thi ICML 2026 AI Top Conference.

Lịch sử "kiến thức hệ thống lâu dài" trong giới học thuật gặp gỡ "điểm đau và cảm nhận nhạy bén" của ngành công nghiệp, làm thế nào để bùng nổ cuộc cách mạng an toàn hệ thống thế hệ tiếp theo?

Đội ngũ 0G tích lũy kinh nghiệm phòng thủ tấn công trong thực tế về các giao thức đồng thuận blockchain; đồng thời, họ còn có nền tảng học thuật vững chắc trong hệ thống phân tán hiệu năng cao, kiểm soát đồng bộ nền tảng, và xác thực hình thức hệ thống. Họ hiểu rõ rằng các phương pháp truyền thống như fuzzing thường bị hạn chế bởi bội số trạng thái khi đối mặt với mã nguồn công nghiệp. Các nhà nghiên cứu quyết định đưa kiến thức logic invariants (bất biến) toàn cục của hệ thống phân tán, tích lũy lâu dài, vào mô hình phối hợp đa tác nhân và kiến trúc tự động hóa Harness, ra mắt khung mở nguồn công bằng Agora.

Song song đó, như các mô hình AI nền tảng phân mảnh và mạng phân tán dữ liệu hiệu năng cao, đội ngũ 0G còn tích lũy kinh nghiệm thực tế phong phú trong các lĩnh vực như blockchain, kiến trúc BFT (Byzantine Fault Tolerance) hiệu năng cao, và các mẫu lỗi thực tế của giao thức.

Sự kết hợp xuyên ngành này hoàn toàn thay đổi quy tắc chơi: không phải kiểm thử bạo lực mù quáng, cũng không phải "mù mờ" dựa trên kiến thức lĩnh vực của các mô hình lớn, mà qua phân công chuyên môn của các tác nhân, chuyển hóa trực tiếp trực giác logic của các chuyên gia hệ thống nhiều thập kỷ thành các cuộc đấu và hợp tác giữa các tác nhân, từ đó có khả năng "đánh vỗ mặt" các công cụ kiểm thử truyền thống một cách mạnh mẽ.

Khác với con đường tiêu tốn token khổng lồ của Glasswing, Agora mang đến giải pháp thay thế cực kỳ thân thiện với doanh nghiệp vừa và nhỏ — chứng minh rằng, ngay cả khi mô hình nền "kém một chút", với kiến trúc phối hợp đa tác nhân có cảm nhận lĩnh vực tinh vi, vẫn có thể phát hiện Deep Bug cứng nhắc!

  1. Điểm đau: Đơn thể LLM khó vượt qua "rào cản" logic sâu, hệ thống phân tán luôn treo lưỡi dao Damocles của "logic sâu thẳm" ======================================

Trong thời đại dữ liệu lớn, blockchain và cơ sở dữ liệu phân tán chiếm lĩnh, các giao thức đồng thuận như Paxos, Raft, PBFT là nền móng của thế giới số. Tuy nhiên, việc thực thi các giao thức này nổi tiếng là "địa ngục khó khăn". Ngay cả các dự án tiêu biểu như etcd, đã qua thử thách của hàng nghìn kỹ sư hàng đầu toàn cầu, vận hành nhiều năm, vẫn tiềm ẩn các Deep Bug (lỗ hổng logic sâu) khiến người ta lạnh sống lưng.

Các lỗ hổng này khác với các lỗi nhỏ như rò rỉ bộ nhớ, tràn số, là các lỗi thực thi thấp cấp (Implementation Bugs), mà chúng vượt qua nhiều giai đoạn thực thi, phụ thuộc vào trạng thái đồng thời phức tạp. Khi bị kích hoạt ác ý, không chỉ gây hỏng dữ liệu cốt lõi, mà còn có thể dẫn đến thảm họa tài chính.

Các mô hình ngôn ngữ lớn (LLM) gần đây dù thể hiện xuất sắc trong phân tích mã nguồn thông thường, nhưng khi đối mặt với các hệ thống đồng thuận phân tán lại tỏ ra "thiếu IQ". Chúng chỉ có thể phát hiện các thiếu sót cục bộ, còn các lỗ hổng logic cấp giao thức dựa trên trạng thái toàn cục thì các đơn thể LLM thường rơi vào bẫy của mã cục bộ, không thể thực hiện suy luận toàn cục về trình tự thời gian.

  1. Giải pháp: Ba tác nhân của Agora và kiến trúc Harness cốt lõi ========================================

Để phá vỡ thế bế tắc này, Agora lần đầu tiên đưa mô hình giả thuyết (Hypothesis-Driven Testing, HDT) của giới học thuật vào hệ thống tác nhân lớn (Agent). Để thực hiện suy luận toàn cục hiệu quả, Agora hoàn toàn từ bỏ mô hình "đánh trận đơn độc", phân tách quy trình thành ba tác nhân chuyên nghiệp:

Tác nhân Điều phối (Orchestrator): duy trì trạng thái toàn cục và khai thác các lỗ hổng đã biết, mở rộng thành các lỗ hổng mới;

Tác nhân Chiến lược (Strategy): cung cấp kiến thức lĩnh vực phân tán, tạo ra các kịch bản tấn công cực kỳ gây hấn cho các giao thức CFT và BFT;

Tác nhân Sinh mã kiểm thử (TestGen): chuyên về thực thi. Chìa khóa để Agora có thể ứng dụng thực tế và tạo ra các kiểm thử hiệu quả là kiến trúc tự động hóa kiểm thử cốt lõi của nó.

Kiến trúc này như hình dưới đây:

Trong thiết kế tổng thể của Agora, "chiến thuật nhỏ mà mạnh" này không phải ngẫu nhiên, mà xuất phát từ cơ chế tương tác tinh vi của các tác nhân và kiến trúc Harness kiểm thử.

Nhóm nghiên cứu đã thiết kế một cơ chế giao tiếp và bộ nhớ tối giản, hiệu quả (Succinct Memory & Communication), đảm bảo các tác nhân tập trung vào nhiệm vụ chính của mình, đồng thời giảm thiểu tối đa chi phí truyền tải ngữ cảnh dư thừa. Trong giới hạn truyền thông tối thiểu này, tác nhân Điều phối (quản lý trạng thái toàn cục), Tác nhân Chiến lược (tạo kịch bản tấn công phân tán), và Tác nhân Sinh mã kiểm thử (kiểm thử mã và đánh giá động) phối hợp hoàn hảo, thúc đẩy và đáp ứng kiến trúc Harness:

Chìa khóa tự nhiên của chu trình tự động hóa: khi Tác nhân Chiến lược phác thảo kịch bản tấn công phân tán trừu tượng, dựa trên khung tương tác cực kỳ phân tách, Tác nhân Sinh mã kiểm thử có thể lập tức kích hoạt kiểm thử nền tảng. Kiến trúc này không chỉ có khả năng thích ứng môi trường mạnh mẽ, có thể chuyển đổi các giả thuyết tấn công thành các đơn vị kiểm thử thực thi được trong các ngôn ngữ như Go, Rust, mà còn tích hợp kỹ thuật phản xạ (Reflection-Loop) hiệu quả.

Khi kiểm thử gặp lỗi, hệ thống sẽ chính xác, kịp thời ghi lại ngăn xếp gọi hàm và nhật ký thực thi, rồi gửi lại cho tác nhân để tự sửa chữa. Sự kết hợp "tác nhân tối giản + vòng phản hồi tự động" này không chỉ giúp Agora phát hiện chính xác các Deep Bug logic sâu nhất với chi phí token cực thấp, mà còn tạo ra các báo cáo phân tích chi tiết với tỷ lệ báo động giả cực thấp.

Hình ảnh tổng quan hoạt động cuối cùng như sau:

  1. Thành quả: Phát hiện 15 Deep Bug cấp cao, mô hình lớn không phát hiện được ============================================

Kết quả đánh giá gây sốc. Nhóm nghiên cứu đã kiểm thử toàn diện bốn thư viện giao thức đồng thuận danh tiếng (bao gồm etcd và thành phần cốt lõi của chuỗi công cộng Sui), so sánh với các mô hình mạnh nhất như GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5, Qwen3 Coder.

Kết quả không chỉ làm hệ thống đồng thuận của 0G an toàn hơn, mà còn thể hiện sức mạnh vượt trội:

Phát hiện 15 Deep Bug logic mới: Agora thành công phát hiện 15 lỗ hổng logic cấp giao thức chưa từng biết, liên quan đến các lĩnh vực như phân kỳ thực thi, vi phạm tính đơn điệu, thiếu hụt topo, lỗ hổng ký chữ ký.

Các mô hình lớn nguyên bản đều "trọc đầu": Ngay cả các mô hình tiên tiến như ReAct, khi đối mặt các lỗ hổng logic sâu này, đều không thể phát hiện (0/15). Chúng tiêu tốn token lớn, chỉ dừng lại ở các lỗi mã nguồn thấp cấp.

Tỷ lệ báo giả cực thấp và hiệu quả cao: Trong tất cả các báo cáo lỗi của Agora, tỷ lệ lỗi logic thực sự chiếm tới 73.9% (tỷ lệ báo giả chỉ 26.1%). Thật đáng kinh ngạc, trung bình để phát hiện một lỗ hổng logic cấp cao khiến các kiến trúc sư già phải "rụng tóc", chỉ tiêu thụ khoảng 5.32 triệu tokens (khoảng 40 USD), hiệu quả cực cao.

Kết quả trên các mô hình LLM khác như sau:

  1. Tương lai: Khả năng mở rộng cao, tiến vào các "khu vực无人" cứng nhắc hơn =========================

Thành công của Agora không chỉ làm tăng niềm tin vào an toàn hệ thống phân tán, mà còn định hướng cho việc ứng dụng mô hình lớn vào các ngành công nghiệp cứng cáp.

Điều đặc biệt, kiến trúc của Agora thể hiện khả năng mở rộng và ứng dụng chung cực cao. Nhóm nghiên cứu nhấn mạnh, Agora còn có thể nhanh chóng được các người dùng nhân rộng dưới dạng plugin hoặc skill, mã nguồn của chúng tôi (github.com/0gfoundation/agora) cung cấp các skill hỗ trợ nhân rộng. Không chỉ vậy, "mô hình lớn + đa tác nhân phối hợp + giả thuyết" không chỉ dành riêng cho kiểm thử giao thức đồng thuận. Nhờ cơ chế điều khiển quy trình làm việc nền tảng và kho kiến thức lĩnh vực, kiểm thử, kiến trúc này còn có thể nhanh chóng mở rộng sang các lĩnh vực cứng nhắc khác đang gặp "địa ngục logic sâu":

Kiểm soát đồng bộ cơ sở dữ liệu (Concurrency Control): kiểm thử xung đột giao dịch phức tạp trong các hệ thống phân tán ở mức độ cách ly cực cao (như serializable);

Hệ điều hành / hệ thống đa luồng: phát hiện sâu các deadlock và điều kiện cạnh tranh tiềm ẩn;

Kiểm tra an toàn hợp đồng thông minh Web3: kiểm tra sâu các giao thức cross-chain và logic DeFi liên quan đến mô hình kinh tế phức tạp. Thị trường an toàn blockchain dự kiến đạt khoảng 8.5 tỷ USD vào 2026, đã xuất hiện các sản phẩm thương mại dùng "hệ thống an toàn đa tác nhân" để kiểm tra hợp đồng thông minh, rút ngắn chu kỳ kiểm tra từ vài tuần xuống vài giờ, nhu cầu thị trường bùng nổ.

Thời đại tự động hóa an toàn AI cho hạ tầng công nghiệp, có thể chính thức bắt đầu từ Agora và kiến trúc Harness của nó.

Chúng ta có lý do để tin rằng, Agora qua việc phát hiện thêm nhiều Deep Bug trong các lĩnh vực khác, sẽ giúp kiểm thử tốt hơn khả năng của các mô hình lập trình mã nguồn lớn, đồng thời các ví dụ Deep Bug này cũng giúp nâng cao khả năng hiểu mã của các mô hình này.

Agora có thể nâng cao đáng kể độ an toàn của các kho mã nguồn như giao thức đồng thuận, kiểm soát đồng bộ, hợp đồng thông minh — các nền tảng cho các giao dịch tài chính an toàn. Đồng thời, Agora còn giúp các công ty công nghệ phát hiện các lỗi logic sâu hơn, tiêu tốn ít tokens hơn, tiết kiệm chi phí hiệu quả hơn!

Quan trọng hơn, điều này đúng vào hai xu hướng nóng nhất hiện nay: thứ nhất, hệ thống đa tác nhân đang chuyển từ thử nghiệm sang sản xuất — Gartner dự đoán đến 2028, hơn 30% phần mềm doanh nghiệp tích hợp AI tác nhân; thị trường nền tảng đa tác nhân sẽ tăng từ trăm tỷ USD lên hàng trăm tỷ USD trong vài năm tới; thứ hai, "kiểm tra chất lượng bằng tác nhân" (Agentic Quality Control) đang trở thành tiêu chuẩn ngành năm 2026.

Trong báo cáo Veracode 2025, khoảng 45% mã AI sinh ra có lỗ hổng an toàn, trong bối cảnh thị trường an toàn AI dự kiến tăng trưởng 42% mỗi năm, Agora giúp các công ty công nghệ phát hiện Deep Bug sâu hơn với chi phí token thấp hơn, nâng cấp kiểm tra an toàn từ "trả phí theo tuần" thành "tự động hóa theo giờ".

Khi thị trường này rõ ràng hơn, những đội nhóm đi trước không phải là các ông lớn nhiều tiếng tăm nhất, mà chính là nhóm đã sớm hoàn thiện phương pháp và có thể nhân rộng liên tục.

Link bài viết gốc

Nhấn để khám phá các vị trí tuyển dụng của BlockBeats

Chào mừng gia nhập cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản chính thức Twitter: https://twitter.com/BlockBeatsAsia

SUI1,29%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim