Google đôi song cao khó khăn vượt lên, TERMS-Bench biến đàm phán AI thành thử nghiệm áp lực phá sản

robot
Đang tạo bản tóm tắt

Theo theo dõi Beating, nhóm của Stanford Erica Zhang đã phát hành bộ dữ liệu thử nghiệm đàm phán kinh tế TERMS-Bench.
Nó loại bỏ “người phán xử hộp đen” của các mô hình lớn, cho phép đánh giá viên có thể nhìn rõ mô hình thua ở chỗ nào: đặt giá, nhượng bộ hay vi phạm.
Trong các thử nghiệm thông thường, Claude Opus 4.6 và ZhiPu GLM 5.1 đứng đầu hai vị trí.
Bài báo phát hiện ra rằng chúng sử dụng chiến lược “đặt giá cao, kiên quyết không nhượng bộ”, tận dụng các ván chơi thuận lợi để làm kiệt quệ đối thủ.
Nhưng trong các ván chơi có biên lợi nhuận cực hẹp, chiến lược cứng rắn sẽ thiệt thòi do thường xuyên đàm phán thất bại.
Bảng xếp hạng ở đây trực tiếp bị “lật đổ”: Gemma 4 31B (mô hình mở trọng số) và Gemini 3.1 Pro, biết nhượng bộ phù hợp để giữ đơn hàng, đã vượt lên và xếp trong top 2;
Trong khi đó, các người dẫn đầu trước đó là Claude tụt xuống thứ 5, GLM xuống thứ 9.
Ngoài thử thách giới hạn cực độ, tiêu chuẩn này gây ấn tượng nhất là thử thách khả năng tồn tại của mô hình trong chế độ Bankroll (quỹ vốn).
Một cuộc đàm phán kéo dài thành các lần mua liên tiếp: mỗi Agent bắt đầu với 100 đô la, đàm phán liên tục 50 vòng, mỗi vòng trừ phí vận hành cố định, hết tiền sẽ phá sản.
Ở đây, những sai sót nhỏ trong đàm phán sẽ cộng dồn thành nguy cơ phá sản do lãi suất kép.
Kết quả cho thấy, các mô hình như GLM 5.1, Claude Opus 4.6 và các “đối thủ” của Google, dù chiến lược khác nhau, đều có khả năng kiểm soát tốt, đều sống sót 100%, cuối cùng đều có tiền mặt từ 380 đến 443 đô la.
Ngược lại, Grok 4.20 và GPT-4o-mini không thể chống đỡ được tổn thất dòng tiền, tỷ lệ phá sản lần lượt là 25% và 50%.
Điều cốt lõi của TERMS-Bench không phải là tỷ lệ thành công trong giao dịch, mà là chuyển đổi các sai sót đàm phán thành tổn thất tiền mặt và rủi ro phá sản.
Mô hình có thể thuyết phục đối thủ chỉ là cấp độ đầu; trong các giao dịch liên tiếp, khả năng giữ vững lợi nhuận và dòng tiền mới thực sự tạo ra sự khác biệt.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim