Сообщение с сайта CoinWorld: Ramp выпустила частный тестовый бенчмарк Ramp SWE-Bench для передовых AI-кодирующих интеллектуальных агентов. Этот бенчмарк включает 80 задач по бэкенд-разработке, взятых из реальной производственной среды Ramp, с целью решить проблему утечки данных и насыщения метрик, вызванные предобучением моделей на публичных датасетах. Согласно опубликованным результатам горизонтального тестирования 14 моделей, новейшая модель Anthropic Claude Fable 5 с показателем решения 87,5% занимает первое место, Claude Opus 4.7 и GPT-5.5 делят второе место с одинаковым показателем 83,75%. Тестовые данные также выявили компромисс между ценой и производительностью у различных моделей: отечественные модели Kimi K2.6 и GLM 5.1 имеют схожие показатели решения — 72,5% и 71,25% соответственно, но средняя стоимость Kimi K2.6 составляет 0,69 доллара, что примерно на 34% дешевле, чем у GLM 5.1.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

4 Лайков

Награда
4
3
1
Поделиться

комментарий

Добавить комментарий

VolatilityOfToastingBread

· 2ч назад

Утечка данных действительно является большой проблемой, только приватное тестирование имеет убедительность

Посмотреть ОригиналОтветить0

Lemon-FlavoredLiquidation

· 2ч назад

Как при такой цене Claude достигает таких результатов, как у Anthropic удается снизить инфраструктурные расходы?

Посмотреть ОригиналОтветить0

RetroRadioSignal

· 2ч назад

Kimi по соотношению цена-качество довольно хорош, 0.69 доллара — и что еще нужно?

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
MyGateTradeStory
156,31K Популярность
#
TradFiCFDGoldMaster
1,99M Популярность
#
IsraelStrikesIranBTCPlunges
57,61K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
769,35K Популярность
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,73M Популярность

Закреплено

Карта сайта

Ramp выпустила частный бенчмарк SWE-Bench: Claude Fable 5 победил с 87,5% победных ставок

Популярные темы

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Закреплено