Повідомлення з CoinWorld, AA-Briefcase повідомляє, що Claude Fable 5 здобув перше місце в оцінюванні, а GLM-5.2 увійшов до трійки лідерів. Оцінювальна організація Artificial Analysis запустила перший довгостроковий тест на знання для великих моделей штучного інтелекту, що охоплює чотири сценарії: наука про дані, управління продуктами, банківські операції та стратегія важкої промисловості, розроблений експертами галузі з Google, McKinsey та Boston Consulting. Всього в тесті 91 завдання, що імітують реальні складні бізнес-проекти. Результати показали, що Claude Fable 5 отримав найвищий загальний бал, а Claude Opus 4.8 і GLM-5.2 посіли друге та третє місця відповідно. Хоча Claude Fable 5 демонструє сильні результати, за суворими стандартами ідеальної відповіді на кожне завдання, його рівень успішності становить лише 3%. Щодо відкритих моделей, GLM-5.2 від Zhipu показав високі результати, маючи загальний бал лише на 90 пунктів менше за Claude Opus 4.8, але при цьому витрати на роботу становлять менше 25%.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

3 лайків

Нагородити
3
4
1
Поділіться

Прокоментувати

Додати коментар

MempoolMaggie

· 6год тому

Клод Фейбл 5 здобув перемогу, але рівень досконалості лише 3%, ця цифра досить болюча, що свідчить про те, що довгострокові завдання для ШІ все ще залишаються надзвичайно складними.

Переглянути оригіналвідповісти на0

SandwichAlertAgent

· 6год тому

Opus 4.8 друге місце трохи незручне, дорого і ще нестабільне, Anthropic потрібно подумати, як розповідати історії.

Переглянути оригіналвідповісти на0

BridgeHopRanger

· 6год тому

Відкритий код GLM-5.2 з неймовірним співвідношенням ціна-якість, різниця у балах — 90 балів, а витрати — на 75% менше, компаніям потрібно знову перераховувати свої бюджети.

Переглянути оригіналвідповісти на0

GlassDomeObservatory

· 6год тому

91 завдань охоплюють чотири галузі, підтримуються Google та McKinsey, я ціную цю цінність орієнтира.

Переглянути оригіналвідповісти на0

Популярні теми
Дізнатися більше
#
MyGateTradeStory
866,21K Популярність
#
WarshDebutsAsFedHoldsRatesSteady
1,45M Популярність
#
IsraelStrikesIranBTCPlunges
59,33K Популярність
#
PredictWorldCup🇺🇸vs🇵🇾
897,34K Популярність
#
TradFiCFDGoldMaster
1,32M Популярність

Закріплено

карта сайту

AA-Зв'язка: Claude Fable 5 переміг, GLM-5.2 увійшов до трійки лідерів

Популярні теми

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закріплено