Tại sao Tác nhân của bạn dừng hoạt động sau vài phút? Kỹ sư của OpenAI: Nó cần một bảng điểm và bộ nhớ bên ngoài

robot
Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, chế độ /goal của Codex cho phép Agent lặp liên tục cho đến khi hoàn thành nhiệm vụ, nhưng điều này làm tăng các điểm yếu của các lời nhắc mơ hồ từ con người. Kỹ sư của OpenAI, Chris Hayduk, đã chỉ ra từ kinh nghiệm thực tế nội bộ rằng các hướng dẫn mơ hồ như ‘tối ưu hóa mã’ có thể khiến mô hình từ bỏ quá sớm do không biết điểm cuối là gì, hoặc rơi vào vòng lặp sửa đổi mù quáng. Để đảm bảo Agent có thể hoạt động ổn định trong nhiều ngày hoặc thậm chí lâu hơn, ông tổng kết ba nguyên tắc: - Loại bỏ các thuật ngữ định tính và thay thế bằng danh sách kiểm tra: Mô hình không thể đánh giá cái gì là ‘tốt hơn’, nhưng nó có thể hiểu ‘giảm thời gian 20% mà không gây lỗi kiểm tra.’ Khi đối mặt với các nhiệm vụ định tính như định dạng bài báo, ông thậm chí cung cấp trực tiếp cho Codex một danh sách kiểm tra Markdown chứa 200 yêu cầu định dạng, biến đổi thô sơ các nhiệm vụ trừu tượng thành các nhiệm vụ định lượng—‘hoàn thành tất cả các ô kiểm là hoàn thành.’ - Giảm thời gian xác nhận xuống còn vài phút: Agent cần xác nhận hành động qua thử nghiệm. Không để nó chạy hàng giờ trong môi trường sản xuất lớn; thay vào đó, cung cấp cho nó một bộ dữ liệu mẫu và khung nhẹ để rút ngắn vòng phản hồi càng nhiều càng tốt. - Tạo ba tệp như một ‘não ngoài’: Dù có cửa sổ ngữ cảnh lớn, nó sẽ mất trí nhớ sau vài ngày chạy. Ông đề xuất trực tiếp tạo ba tệp Markdown tại chỗ: PLAN.md (kế hoạch tổng thể), EXPERIMENTS.md (ghi lại các thử nghiệm và kết quả), và EXPERIMENT_NOTES.md (bản nháp suy nghĩ theo thời gian thực), buộc mô hình phải ghi lại quá trình thử và sai vào ổ cứng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim