Новости сайта Coinjie, AA-Briefcase сообщает, что Claude Fable 5 занял первое место в оценке, а GLM-5.2 — вошел в тройку лидеров.
Агентство оценки Artificial Analysis представило первый долгосрочный тест на знание, специально разработанный для интеллектуальных моделей больших размеров, охватывающий четыре сценария: наука о данных, управление продуктами, банковские операции и стратегия тяжелой промышленности, разработанный экспертами из Google, McKinsey и Boston Consulting.
Всего в тесте 91 задание, имитирующее реальные сложные бизнес-проекты.
Результаты показали, что Claude Fable 5 набрал наивысший общий балл, Claude Opus 4.8 — занял второе место, а GLM-5.2 — третье.
Несмотря на сильные показатели Claude Fable 5, при строгом полном выполнении отдельных задач его уровень успешности составляет всего 3%.
В области открытых моделей, выделяется GLM-5.2 от Zhipu, который по совокупной оценке уступает Claude Opus 4.8 всего на 90 баллов, при этом его эксплуатационные расходы менее чем в 25 раз ниже.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

3 Лайков

Награда
3
4
1
Поделиться

комментарий

Добавить комментарий

MempoolMaggie

· 4ч назад

Claude Fable 5 выиграл, но показатель совершенства всего 3%, эта цифра довольно неприятная, что говорит о том, что долгосрочные задачи для ИИ всё ещё очень сложные.

Посмотреть ОригиналОтветить0

SandwichAlertAgent

· 4ч назад

Opus 4.8 позиция второго немного неловкая, дорогая и нестабильная, Anthropic нужно подумать, как рассказать историю.

Посмотреть ОригиналОтветить0

BridgeHopRanger

· 4ч назад

Открытый исходный код GLM-5.2 по соотношению цена и качество бьет все рекорды, разница в баллах составляет 90, а затраты при этом экономятся на 75%, компаниям придется пересчитать свои бюджеты.

Посмотреть ОригиналОтветить0

GlassDomeObservatory

· 4ч назад

91 задач охватывают четыре отрасли, поддержка Google и McKinsey, я ценю ценность этого стандарта.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
MyGateTradeStory
859,5K Популярность
#
WarshDebutsAsFedHoldsRatesSteady
1,44M Популярность
#
IsraelStrikesIranBTCPlunges
59,33K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
885,38K Популярность
#
TradFiCFDGoldMaster
1,1M Популярность

Закреплено

Карта сайта

AA-Briefcase发布：Claude Fable 5夺冠，GLM-5.2挤进前三

Популярные темы

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закреплено