Ảnh hưởng của việc kiểm thử thực tế Augment Code đối với mã AGENTS.md: tốt nhất thì như nâng cấp mô hình một cấp, tệ nhất thì không viết còn hơn

robot
Đang tạo bản tóm tắt

Tin tức ME, ngày 23 tháng 4 (UTC+8), theo theo dõi của Động Trắc Beating, công ty công cụ lập trình AI Augment Code đã trích xuất hàng chục tệp AGENTS.md từ monorepo của chính mình, sử dụng bộ kiểm thử nội bộ AuggieBench để đo lường ảnh hưởng thực tế của chúng đối với sản phẩm của các agent lập trình. Phương pháp là lấy các PR chất lượng cao đã hợp nhất làm chuẩn, để agent thực hiện lại cùng một nhiệm vụ trong hai điều kiện có và không có AGENTS.md, rồi so sánh điểm số. Khoảng cách chênh lệch lớn hơn nhiều so với dự kiến. AGENTS.md viết tốt nhất mang lại mức nâng cao chất lượng tương đương như chuyển đổi mô hình từ Haiku sang Opus, còn viết kém nhất thì còn thua xa hoàn toàn không có. Hơn nữa, cùng một tệp trong các nhiệm vụ khác nhau có thể cho kết quả trái ngược: nó giúp tăng 25% độ phù hợp của chuẩn mực sửa lỗi, nhưng lại làm độ hoàn thành của một chức năng phức tạp trong cùng một mô-đun giảm 30%. Có vài cách viết hiệu quả: kiểm soát tệp chính trong khoảng 100 đến 150 dòng, đi kèm vài tài liệu tham khảo tập trung, trong các mô-đun trung bình khoảng vài trăm tệp chính có thể mang lại cải thiện toàn diện từ 10% đến 15%. Viết quy trình thành các bước đánh số hiệu quả nhất, một quy trình triển khai 6 bước giúp giảm tỷ lệ PR thiếu tệp từ 40% xuống còn 10%, độ chính xác tăng 25%. Sử dụng bảng quyết định giúp agent chọn đúng phương án trước khi bắt tay, độ phù hợp của chuẩn mực cũng tăng 25%. Viết các lệnh cấm phải kèm theo các phương án thay thế, chỉ viết “không được” sẽ khiến agent do dự, hơn 15 cảnh báo liên tiếp sẽ làm hiệu quả rõ rệt giảm. Điều dễ gây lỗi nhất là quá nhiều tài liệu. Một khi agent bị kéo vào hàng loạt tài liệu kiến trúc, sau khi tải hàng chục vạn token, kết quả lại trở nên kém hơn. Có một mô-đun tích trữ 226 tài liệu vượt quá 2MB, dù AGENTS.md tốt đến đâu cũng vô dụng. Ngoài ra, AGENTS.md là vị trí duy nhất agent chắc chắn sẽ đọc, các tài liệu trong thư mục _docs/ không được tham chiếu thì tỷ lệ phát hiện dưới 10%. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim