Ramp выпустила частный бенчмарк SWE-Bench: Claude Fable 5 победил с 87,5% победных ставок

robot
Генерация тезисов в процессе
Сообщение с сайта CoinWorld: Ramp выпустила частный тестовый бенчмарк Ramp SWE-Bench для передовых AI-кодирующих интеллектуальных агентов. Этот бенчмарк включает 80 задач по бэкенд-разработке, взятых из реальной производственной среды Ramp, с целью решить проблему утечки данных и насыщения метрик, вызванные предобучением моделей на публичных датасетах. Согласно опубликованным результатам горизонтального тестирования 14 моделей, новейшая модель Anthropic Claude Fable 5 с показателем решения 87,5% занимает первое место, Claude Opus 4.7 и GPT-5.5 делят второе место с одинаковым показателем 83,75%. Тестовые данные также выявили компромисс между ценой и производительностью у различных моделей: отечественные модели Kimi K2.6 и GLM 5.1 имеют схожие показатели решения — 72,5% и 71,25% соответственно, но средняя стоимость Kimi K2.6 составляет 0,69 доллара, что примерно на 34% дешевле, чем у GLM 5.1.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
VolatilityOfToastingBread
· 2ч назад
Утечка данных действительно является большой проблемой, только приватное тестирование имеет убедительность
Посмотреть ОригиналОтветить0
Lemon-FlavoredLiquidation
· 2ч назад
Как при такой цене Claude достигает таких результатов, как у Anthropic удается снизить инфраструктурные расходы?
Посмотреть ОригиналОтветить0
RetroRadioSignal
· 2ч назад
Kimi по соотношению цена-качество довольно хорош, 0.69 доллара — и что еще нужно?
Посмотреть ОригиналОтветить0
  • Закреплено