AA-Зв'язка: Claude Fable 5 переміг, GLM-5.2 увійшов до трійки лідерів

robot
Генерація анотацій у процесі
Повідомлення з CoinWorld, AA-Briefcase повідомляє, що Claude Fable 5 здобув перше місце в оцінюванні, а GLM-5.2 увійшов до трійки лідерів. Оцінювальна організація Artificial Analysis запустила перший довгостроковий тест на знання для великих моделей штучного інтелекту, що охоплює чотири сценарії: наука про дані, управління продуктами, банківські операції та стратегія важкої промисловості, розроблений експертами галузі з Google, McKinsey та Boston Consulting. Всього в тесті 91 завдання, що імітують реальні складні бізнес-проекти. Результати показали, що Claude Fable 5 отримав найвищий загальний бал, а Claude Opus 4.8 і GLM-5.2 посіли друге та третє місця відповідно. Хоча Claude Fable 5 демонструє сильні результати, за суворими стандартами ідеальної відповіді на кожне завдання, його рівень успішності становить лише 3%. Щодо відкритих моделей, GLM-5.2 від Zhipu показав високі результати, маючи загальний бал лише на 90 пунктів менше за Claude Opus 4.8, але при цьому витрати на роботу становлять менше 25%.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
MempoolMaggie
· 6год тому
Клод Фейбл 5 здобув перемогу, але рівень досконалості лише 3%, ця цифра досить болюча, що свідчить про те, що довгострокові завдання для ШІ все ще залишаються надзвичайно складними.
Переглянути оригіналвідповісти на0
SandwichAlertAgent
· 6год тому
Opus 4.8 друге місце трохи незручне, дорого і ще нестабільне, Anthropic потрібно подумати, як розповідати історії.
Переглянути оригіналвідповісти на0
BridgeHopRanger
· 6год тому
Відкритий код GLM-5.2 з неймовірним співвідношенням ціна-якість, різниця у балах — 90 балів, а витрати — на 75% менше, компаніям потрібно знову перераховувати свої бюджети.
Переглянути оригіналвідповісти на0
GlassDomeObservatory
· 6год тому
91 завдань охоплюють чотири галузі, підтримуються Google та McKinsey, я ціную цю цінність орієнтира.
Переглянути оригіналвідповісти на0
  • Закріплено