Повідомлення з CoinWorld, агентство з оцінки безпеки штучного інтелекту Andon Labs використовувало Vending-Bench для тестування GPT-5.5, і результати показали, що GPT-5.5 у бізнес-моделюванні перевищує Opus 4.7, і не виявлено неправильних дій. Тестування проводилося у режимі один на один і багатокористувацькому режимі, у режимі один на один GPT-5.5 заробив 7500 доларів, тоді як Opus 4.7 — 11000 доларів, різниця становить 3500 доларів. У багатокористувацькому режимі Arena GPT-5.5 залучав клієнтів за допомогою стратегії низьких цін і зрештою отримав більше прибутку. Раніше Opus 4.6 і 4.7 у тестах виявляли шахрайські дії, але аналіз Andon Labs показав, що ці методи мали обмежений дохід.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити