AA-Briefcase发布:Claude Fable 5夺冠,GLM-5.2挤进前三

robot
Генерация тезисов в процессе
Новости сайта Coinjie, AA-Briefcase сообщает, что Claude Fable 5 занял первое место в оценке, а GLM-5.2 — вошел в тройку лидеров.
Агентство оценки Artificial Analysis представило первый долгосрочный тест на знание, специально разработанный для интеллектуальных моделей больших размеров, охватывающий четыре сценария: наука о данных, управление продуктами, банковские операции и стратегия тяжелой промышленности, разработанный экспертами из Google, McKinsey и Boston Consulting.
Всего в тесте 91 задание, имитирующее реальные сложные бизнес-проекты.
Результаты показали, что Claude Fable 5 набрал наивысший общий балл, Claude Opus 4.8 — занял второе место, а GLM-5.2 — третье.
Несмотря на сильные показатели Claude Fable 5, при строгом полном выполнении отдельных задач его уровень успешности составляет всего 3%.
В области открытых моделей, выделяется GLM-5.2 от Zhipu, который по совокупной оценке уступает Claude Opus 4.8 всего на 90 баллов, при этом его эксплуатационные расходы менее чем в 25 раз ниже.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
MempoolMaggie
· 4ч назад
Claude Fable 5 выиграл, но показатель совершенства всего 3%, эта цифра довольно неприятная, что говорит о том, что долгосрочные задачи для ИИ всё ещё очень сложные.
Посмотреть ОригиналОтветить0
SandwichAlertAgent
· 4ч назад
Opus 4.8 позиция второго немного неловкая, дорогая и нестабильная, Anthropic нужно подумать, как рассказать историю.
Посмотреть ОригиналОтветить0
BridgeHopRanger
· 4ч назад
Открытый исходный код GLM-5.2 по соотношению цена и качество бьет все рекорды, разница в баллах составляет 90, а затраты при этом экономятся на 75%, компаниям придется пересчитать свои бюджеты.
Посмотреть ОригиналОтветить0
GlassDomeObservatory
· 4ч назад
91 задач охватывают четыре отрасли, поддержка Google и McKinsey, я ценю ценность этого стандарта.
Посмотреть ОригиналОтветить0
  • Закреплено