Порівняння балів Sakana Fugu та Fable 5 піддається сумніву, різниця в тестовому каркасі може призвести до відхилення на 10-20 балів.

robot
Генерація анотацій у процесі
ME AI Повідомлення, за даними моніторингу Beating, японський AI-стартап Sakana AI заявив, що його багатоагентна система Fugu Ultra перевершила флагманську модель Fable 5 від Anthropic у кількох бенчмарках, таких як наукове міркування та програмування, однак результати тестування викликали широкі сумніви в спільноті. Критики вказують, що порівнювати власні тестові дані в неуніфікованому середовищі не об'єктивно. Результати тесту сильно залежать від використовуваного складного програмного забезпечення (Scaffold/Harness), а відхилення в балах через різні складні системи можуть сягати 10–20 балів, що робить так зване «перевершення» значною мірою результатом системної інженерної оптимізації, а не якісного стрибка в здібностях базової моделі. Незалежні оціночні дані показують, що агентне складне програмне забезпечення, побудоване навколо великих моделей, має величезний вплив на остаточні бали. Для однієї й тієї ж моделі Claude Opus 4.5, лише зміна трьох різних відкритих складних систем призвела до коливань показника виправлення в бенчмарку SWE-bench Pro від 50,2% до 55,4%. Подальший аналіз сторонньої тестової організації Scale AI підтверджує, що такі стратегії виконання, як шаблони підказок, верхня межа кількості спроб, управління збереженням контексту та інтеграція викликів інструментів, можуть призвести до відхилення балів на 10–20 для одного й того ж набору ваг моделі. Оскільки дані, опубліковані Sakana AI та Anthropic, базуються на власних закритих складних системах (Vendor Scaffold), оптимізованих для їхніх систем, і не були протестовані в стандартизованому незалежному середовищі третьої сторони (наприклад, Scale SEAL), дані не можуть реально відобразити силу базових здібностей двох моделей. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено