Hệ thống tối ưu hóa tự động AI giúp Haiku 4.5 đạt thành tích đứng đầu: Lâm Tuấn Dương cho rằng đây chính là bước ngoặt của "thiết kế môi trường" mà anh đã dự đoán

robot
Đang tạo bản tóm tắt

Tin từ CoinJie.com: Theo dõi từ 1M AI News, các nhà nghiên cứu từ Stanford, MIT và công ty game Hàn Quốc KRAFTON đã công bố Meta-Harness, một bộ phương pháp để AI tự động tối ưu hóa khung thực thi (harness, tức khung bao bọc mô hình và cung cấp giàn giáo thực thi điều khiển các tác vụ của Agent, bao gồm thiết kế lời nhắc, gọi công cụ và quản lý ngữ cảnh). Khác với các khung thực thi được viết thủ công, Meta-Harness cho phép một agent lập trình đọc mã của các khung ứng viên trước đó, nhật ký thực thi và điểm số, rồi tự động lặp lại để tối ưu. Trên chuẩn tác vụ vận hành đầu cuối TerminalBench-2, Meta-Harness đã nâng tỷ lệ pass của Claude Haiku 4.5 lên 37.6%, vượt Goose (35.5%) và Claude Code (27.5%), và đứng đầu trong tất cả các khung thực thi Haiku 4.5 đã được báo cáo. Với Claude Opus 4.6, tỷ lệ pass đạt 76.4%, đứng thứ hai. Trưởng bộ phận kỹ thuật của Tongyi Qianwen trước đó là Lâm Tuấn Dương đã chuyển tiếp bài đăng của tác giả và bình luận: “‘Mô hình + khung thực thi’ đã vượt qua ‘chỉ nhìn mô hình’”. Hoạt động của Agent sẽ chịu ảnh hưởng đáng kể bởi thiết kế và chất lượng của khung, “tôi thực sự cho rằng đây là một hướng đi đúng đắn”. Trong bài viết dài được Lâm Tuấn Dương đăng vào ngày 27 tháng 3 (hiện đã bị xóa), ông cũng dự đoán rằng thiết kế môi trường sẽ chuyển từ một hạng mục phụ thành một hạng mục sản phẩm khởi nghiệp thực sự. Meta-Harness đã chứng minh nhận định này bằng dữ liệu thí nghiệm: cùng một mô hình, nếu thay sang một bộ khung thực thi đã được AI tối ưu, thì khoảng cách kết quả có thể lên tới 10 điểm phần trăm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.27KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.37KNgười nắm giữ:2
    1.04%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Ghim