Повідомлення з CoinWorld, Ramp випустила приватний тестовий бенчмарк для передових AI-кодуючих агентів Ramp SWE-Bench.
Цей бенчмарк містить 80 бекенд-завдань, взятих із реального виробничого середовища Ramp, спрямованих на вирішення проблеми витоку даних та перенасичення показників через попереднє навчання моделей на публічних датасетах.
Згідно з оприлюдненими результатами горизонтального тестування 14 моделей, найвищий показник вирішення задачі — 87,5% — має найновіша модель Anthropic Claude Fable 5,
Claude Opus 4.7 і GPT-5.5 посіли друге місце з однаковим показником 83,75%.
Тестові дані також показали компроміс між ціною та продуктивністю різних моделей: вітчизняна модель Kimi K2.6 має схожий рівень вирішення задач — 72,5%,
і GLM 5.1 — 71,25%, але середня вартість Kimi K2.6 становить 0,69 долара, що приблизно на 34% дешевше за GLM 5.1.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

4 лайків

Нагородити
4
3
1
Поділіться

Прокоментувати

Додати коментар

VolatilityOfToastingBread

· 4год тому

Проблема витоку даних дійсно є серйозною, приватне тестування має переконливу силу

Переглянути оригіналвідповісти на0

Lemon-FlavoredLiquidation

· 4год тому

Як така ціна Claude може досягти таких результатів, як Anthropic зменшує свої інфраструктурні витрати?

Переглянути оригіналвідповісти на0

RetroRadioSignal

· 4год тому

Kimi має досить хорошу цінову якість, 0.69 долара — і що ще потрібно для велосипеда

Переглянути оригіналвідповісти на0

Популярні теми
Дізнатися більше
#
MyGateTradeStory
160,42K Популярність
#
TradFiCFDGoldMaster
1,99M Популярність
#
IsraelStrikesIranBTCPlunges
57,61K Популярність
#
PredictWorldCup🇺🇸vs🇵🇾
771,66K Популярність
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,73M Популярність

Закріплено

карта сайту

Ramp випустила приватний бенчмарк SWE-Bench: Claude Fable 5 здобула перемогу з 87,5% рівнем успіху

Популярні теми

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Закріплено