ME News tin tức, ngày 23 tháng 4 (UTC+8), theo giám sát của Beating, nhóm UCSB Yu Feng hợp tác với fuzz.land và các tổ chức khác đề xuất AgentFlow, tự động tổng hợp multi-agent harness (chương trình sắp xếp phân công vai trò agent, truyền thông tin, phân phối công cụ và logic thử lại) để phát hiện lỗ hổng. Bài báo chỉ ra rằng khi mô hình không thay đổi, chỉ thay đổi harness có thể khiến tỷ lệ thành công chênh lệch nhiều lần, nhưng các giải pháp hiện tại chủ yếu được viết thủ công hoặc chỉ tìm kiếm không gian thiết kế cục bộ. AgentFlow sử dụng DSL đồ thị có kiểu để thống nhất năm chiều của harness (vai trò, topo, mẫu tin nhắn, ràng buộc công cụ, giao thức phối hợp) thành chương trình đồ thị có thể chỉnh sửa, một bước có thể đồng thời thêm/sửa agent, topo, prompt và bộ công cụ. Vòng lặp bên ngoài xác định các bước thất bại từ tín hiệu runtime như độ phủ của chương trình mục tiêu, báo cáo sanitizer, thay thế phản hồi nhị phân pass/fail. Trên TerminalBench-2 kết hợp với Claude Opus 4.6 đạt 84.3% (75/89), là điểm cao nhất cùng loại trên bảng xếp hạng này. Trên Chrome codebase (35 triệu dòng C/C++), hệ thống tổng hợp harness gồm hơn 300 agent, các lệnh agent tiến hóa tự động chuyên tấn công lỗ hổng bộ nhớ C++, yêu cầu xác minh crash bằng ASAN/UBSAN, nhiều agent khử trùng lặp thông qua tài liệu chia sẻ và khóa tệp. Sử dụng mô hình mã nguồn mở Kimi K2.5 chạy trên 192 H100 trong 7 ngày, phát hiện 10 lỗ hổng zero-day, tất cả đều được xác nhận qua Chrome VRP. 6 lỗ đã có CVE, liên quan đến WebCodecs, Proxy, Network, Codecs, Rendering, loại gồm UAF, integer overflow và heap buffer overflow, trong đó CVE-2026-5280 và CVE-2026-6297 là sandbox escape cấp Critical. Đồng sáng lập fuzz.land, Thọ Siêu Phan, cho biết một số lỗ hổng ban đầu được phát hiện bằng MiniMax M2.5, MiniMax M2.5 và Opus 4.6 cũng có thể phát hiện phần lớn. AgentFlow đã được mã nguồn mở. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,55M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
215,81K Phổ biến
#
IsraelStrikesIranBTCPlunges
63,94K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
329,01K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
558,54K Phổ biến

Đã ghim

sơ đồ trang web

AgentFlow tổng hợp 300 Agent khai thác 10 lỗ hổng zero-day của Chrome bao gồm thoát khỏi sandbox.

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim