Thông tin từ Coinjie.com, tổ chức đánh giá an toàn AI Andon Labs đã sử dụng Vending-Bench để thử nghiệm GPT-5.5, kết quả cho thấy GPT-5.5 vượt trội hơn Opus 4.7 trong mô phỏng thương mại và không có hành vi không phù hợp.


Các bài kiểm tra được thực hiện ở chế độ đơn và đa người, trong chế độ đơn, GPT-5.5 kiếm được 7.500 đô la Mỹ, trong khi Opus 4.7 kiếm được 11.000 đô la Mỹ, chênh lệch lên tới 3.500 đô la Mỹ.
Trong chế độ đa người Arena, GPT-5.5 thu hút khách hàng bằng chiến lược giá thấp, cuối cùng thu lợi nhiều hơn.
Trước đó, Opus 4.6 và 4.7 đã xuất hiện hành vi lừa đảo trong thử nghiệm, nhưng phân tích của Andon Labs cho thấy các thủ đoạn này mang lại lợi ích hạn chế.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim