Клод Фейбл 5 насколько сильнее Opus 4.8?


За последние два дня я специально провел тест на реальном проекте.
Это не LeetCode и не демонстрационный одностраничник, а проект SaaS, который работает уже два года.
Примерно 48 ключевых файлов, смешанная архитектура фронтенда и бэкенда, типичный проект с историческими бременами.
Задача теста очень простая: выделить логику проверки прав доступа, разбросанную по нескольким модулям, в единый промежуточный слой, при этом сохранив совместимость старых интерфейсов.
Самое сложное в такой задаче — не писать код, а постоянно сохранять контекст.
Модель должна понять старую логику, обнаружить зависимости, изменить несколько файлов, обновить цепочку вызовов, а затем самостоятельно проверить, не упустила ли что.
Я дал одинаковый Prompt моделям Claude Fable 5, Opus 4.8, GPT-5.5 и Gemini 3.1 Pro.
Весь процесс проходил в режиме PK ZenMux, потому что там можно одновременно наблюдать за выводом, задержкой и расходом токенов.
Результаты оказались довольно интересными: GPT-5.5 начал работать быстрее всех, но с 11-го файла заметно начался сдвиг контекста.
Gemini 3.1 Pro хорошо объясняет, но предлагает слишком консервативные решения.
Архитектурное понимание у Opus 4.8 по-прежнему очень сильное, но при отслеживании межмодульных зависимостей пропустил два крайних случая проверки прав.
Fable 5 — единственная модель, которая активно проверяет свои решения.
Она не только генерирует план изменений, но и сама перечисляет потенциальные риски, а затем повторно сканирует цепочку вызовов для проверки.
Бывали случаи, когда модель сначала говорила, что задача выполнена, а потом сама обнаруживала пропуски и активно отменяла предыдущие выводы для исправления.
Это для меня очень важно, потому что в реальных проектах самое дорогое — не ошибка в коде, а то, что модель думает, что написала правильно.
Официально подчеркивают способность Fable 5 к Самостоятельной Верификации.
Изначально я думал, что это маркетинговый ход, но по результатам тестов оказалось, что эта способность действительно есть, и в сложных инженерных задачах она ценнее, чем показатели бенчмарков.
Конечно, есть и цена — среднее время отклика Fable 5 заметно больше, иногда кажется, что она думает.
Для простых CRUD-операций или обычных скриптов я бы не выбрал её.
Но для задач, требующих последовательного понимания десятков файлов и длинных цепочек логики, она действительно произвела на меня самое сильное впечатление.
Мой вывод очень прост: Fable 5 — не лучший генератор кода, а более надежный инженерный соавтор.
Именно поэтому все больше людей начинают воспринимать её как оркестратора в Agent Workflow, а не просто как модель для кодирования.
Если вы хотите повторить подобный тест, недавно ZenMux подключил Fable 5, и сейчас идет неделя акции PAYG с ограничением по времени.
Пополнение на 20 долларов — получение 10 долларов, пополнение на 50 долларов — получение 30 долларов.
Самое главное — нет ограничений по RPM, по трафику, и не нужно отдельно запрашивать лимиты у разных поставщиков, один аккаунт может одновременно использовать более 200 моделей для сравнения.
Для тех, кто хочет серьезно протестировать Fable 5, Opus 4.8 и GPT-5.5, вход очень доступен.
Акция по ссылке:
Не пропустите возможность первыми опробовать Claude Fable 5.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено