Claude Opus 4.6 останнім часом дійсно здається став менш розумним…


Минулого тижня у базовому тесті BridgeBench він ще стабільно займав друге місце, точність 83.3%
Результат повторного тесту 12 квітня — одразу опустився до 10-го місця, точність знизилася до 68.3%, рівень галюцинацій зріс на 98%
Порівняльна діаграма до і після показує дуже явну різницю
Багато хто останнім часом, використовуючи його для написання коду, виконання логічних висновків, також відчуває, що він став значно гіршим, швидко забуває інструкції, більше бредить
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити