Чулда Фейбл 5 наскільки дійсно сильніший за Opus 4.8?


За останні два дні я спеціально провів тест на реальному проекті.
Це не LeetCode і не однопоточний демонстраційний файл, а вже двохрічний SaaS-проект.
Приблизно 48 ключових файлів, гібридна архітектура фронтенду і бекенду, типовий проект з історичним багажем.
Задача тесту дуже проста: виділити логіку перевірки прав доступу, яка розкидана по кількох модулях, у єдину проміжну обробку, при цьому зберегти сумісність з старими інтерфейсами.
Найскладніше в цій задачі насправді не написати код, а постійно зберігати контекст.
Модель має розуміти стару логіку, виявляти залежності, змінювати кілька файлів, оновлювати ланцюги викликів, і потім самостійно перевіряти, чи нічого не пропустила.
Я подав однаковий Prompt окремо для Claude Fable 5, Opus 4.8, GPT-5.5 і Gemini 3.1 Pro.
Увесь процес проходив у режимі PK в ZenMux, оскільки там можна одночасно спостерігати за виходом, затримкою і споживанням токенів.
Результат виявився досить цікавим: GPT-5.5 почав швидше, але з 11-го файлу з’явився явний зсув контексту.
Gemini 3.1 Pro добре пояснює, але пропонує більш консервативні рішення.
Архітектурне розуміння Opus 4.8 залишається сильним, але при відслідковуванні залежностей між модулями пропустив два крайніх випадки перевірки прав.
Fable 5 — єдина модель, яка активно перевіряє свої рішення.
Вона не тільки генерує план змін, а й сама вказує потенційні ризики, потім повторно сканує ланцюги викликів для перевірки.
Навіть був випадок, коли модель спочатку сказала, що завдання виконане, а потім сама виявила пропуски і скасувала попередні висновки для корекції.
Це для мене найважливіше, бо в реальних проектах найкоштовніше — не помилки у коді, а те, що модель думає, що вона все зробила правильно.
Офіційно підкреслюють Self Verification у Fable 5.
Спочатку я думав, що це маркетинговий хід, але при тестуванні виявилося, що ця здатність справді існує, і її цінність у складних проектах значно перевищує цифри бенчмарків.
Звісно, це має свою ціну: середній час відповіді Fable 5 явно довший, іноді здається, що вона думає.
Якщо це прості CRUD або звичайний скрипт, я б не обрав її.
Але для задач, що вимагають послідовного розуміння десятків файлів і довгих ланцюгів логіки, вона справді залишила найглибше враження.
Мій висновок дуже простий: Fable 5 — це не найкращий генератор коду, а більш надійний інженерний співпрацівник.
Саме тому все більше людей починають сприймати її як оркестратора в Agent Workflow, а не просто як модель для кодування.
Якщо ви хочете самостійно повторити подібний тест, то останнім часом ZenMux додав Fable 5, і зараз триває тижнева акція PAYG з бонусами.
Поповнення на 20 доларів — отримайте 10 доларів, поповнення на 50 доларів — отримайте 30 доларів.
Головне — без обмежень RPM, без обмежень потоку, і не потрібно окремо подавати заявки на різні ліміти від постачальників, один акаунт може одночасно викликати понад 200 моделей для порівняльного тестування.
Для тих, хто хоче серйозно протестувати Fable 5, Opus 4.8 і GPT-5.5, бар’єр дійсно знизився.
Посилання на акцію:
Якщо хочете першими випробувати Claude Fable 5 — не пропустіть.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено