Ramp випустила приватний бенчмарк SWE-Bench: Claude Fable 5 здобула перемогу з 87,5% рівнем успіху

robot
Генерація анотацій у процесі
Повідомлення з CoinWorld, Ramp випустила приватний тестовий бенчмарк для передових AI-кодуючих агентів Ramp SWE-Bench.
Цей бенчмарк містить 80 бекенд-завдань, взятих із реального виробничого середовища Ramp, спрямованих на вирішення проблеми витоку даних та перенасичення показників через попереднє навчання моделей на публічних датасетах.
Згідно з оприлюдненими результатами горизонтального тестування 14 моделей, найвищий показник вирішення задачі — 87,5% — має найновіша модель Anthropic Claude Fable 5,
Claude Opus 4.7 і GPT-5.5 посіли друге місце з однаковим показником 83,75%.
Тестові дані також показали компроміс між ціною та продуктивністю різних моделей: вітчизняна модель Kimi K2.6 має схожий рівень вирішення задач — 72,5%,
і GLM 5.1 — 71,25%, але середня вартість Kimi K2.6 становить 0,69 долара, що приблизно на 34% дешевше за GLM 5.1.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
VolatilityOfToastingBread
· 4год тому
Проблема витоку даних дійсно є серйозною, приватне тестування має переконливу силу
Переглянути оригіналвідповісти на0
Lemon-FlavoredLiquidation
· 4год тому
Як така ціна Claude може досягти таких результатів, як Anthropic зменшує свої інфраструктурні витрати?
Переглянути оригіналвідповісти на0
RetroRadioSignal
· 4год тому
Kimi має досить хорошу цінову якість, 0.69 долара — і що ще потрібно для велосипеда
Переглянути оригіналвідповісти на0
  • Закріплено