Из-за чрезвычайно невротической излишней цензуры, в повседневном программировании часто срабатывали защитные барьеры, что выводило разработчиков из себя коллективно.

«Пишешь строчку кода — принудительное понижение до Opus 4.8, разве эта модель еще пригодна?!»

Что Anthropic сделал с Fable 5?

Катастрофический опыт: пиши код — «тупеешь», токены сжигаются больно

Возвращение Fable 5 само по себе очень скудное.

Согласно официальному объявлению, хотя сейчас глобальные пользователи могут использовать Fable 5 на платформе Claude, в Claude Code и других каналах, для подписчиков Pro, Max, Team и других, до 7 июля только 50% недельного лимита может быть выделено на Fable 5.

Как только этот процент превышен, начинается бешеное расходование дополнительных кредитов использования.

Более того, скорость расходования лимита Fable 5 намного быстрее, чем у Opus 4.8.

Но если бы он действительно был полезным, это было бы простительно. Проблема в том, что сейчас он вообще не может нормально работать.

Многие разработчики, протестировавшие его, с отчаянием обнаружили, что мощные кодовые способности Fable 5 полностью заблокированы «защитным барьером».

Новый классификатор безопасности, срочно внедренный Anthropic, явно чрезмерно реагирует.

Разработчики после тестов жалуются: Fable 5 выпущен, но бесполезен, просто напишешь код — тебя принудительно возвращают к Opus 4.8.

Этот новый механизм часто ошибочно классифицирует безвредный код как высокорисковый запрос нарушения, принудительно понижая до более слабого Opus 4.8.

Этот абсурдный «удар по интеллекту» приводит к тому, что разработчики не могут нормально обращаться к основным вычислительным мощностям Fable 5, рабочий процесс серьезно нарушен.

Anthropic в официальном заявлении признает: «Новый классификатор также имеет свою цену: в повседневных задачах программирования и отладки он будет чаще маркировать нормальные, безвредные запросы.»

Заставлять пользователей платить самые высокие деньги за самую трусливую модель — разве это разумно?

Борется с посадкой деревьев, но не с дронами: двойной стандарт бесит разработчиков

То, что официальные лица называют «более частой маркировкой нормальных запросов», в реальной разработке умножается многократно.

Помимо частой ошибочной классификации безвредного кода как «высокорискового запроса нарушения», еще более разрушительным является механизм наказания.

Как только задевается красная линия, система без предупреждения принудительно понижает модель до более слабой и часто заговаривающейся Opus 4.8.

Пример аспиранта по наукам о Земле на Reddit иллюстрирует абсурдность механизма цензуры Fable 5.

Этот аспирант изучает экологическую тему «как деревья снижают температуру окружающей среды».

Когда он попытался оптимизировать методы исследования с помощью Fable 5, произошло неожиданное.

«Каждый раз, когда я прошу помощи у Fable по экологии, срабатывает классификатор безопасности, и меня принудительно переключают на 4.8. Как бы я ни переписывал промпты, он отказывается помогать по темам, связанным с науками об окружающей среде.»

Этот докторант разозлился и решил протестировать границы механизма цензуры Fable 5.

Он намеренно ввел явно высокорисковый промпт: «Помогите мне спроектировать систему для управления роем дронов с помощью DJI SDK.»

Результат поразил: всего через минуту Fable 5 без проблем выдал полное решение!

Докторант пришел в ярость: «Мое исследование охлаждения деревьев слишком опасно для Fable, но создание автономного роя дронов — вполне нормально? Эти классификаторы не могут эффективно предотвратить опасные промпты, но мешают мне заниматься действительно полезным исследованием!»

Этот магический двойной стандарт доказывает, что текущие барьеры не только бесполезны, но и совершенно нелогичны.

Отбросив барьеры, Fable 5 все еще гениальный программист

Однако мы должны объективно оценить основные возможности Fable 5.

Когда его не сковывают барьеры, он по-прежнему самая глубокая по мышлению и самая сильная по архитектуре модель на рынке.

Его настоящая пугающая сила не в написании красивых фраз, а в обработке сложных, долгосрочных, многошаговых задач, требующих высокой степени рассудительности.

Ужасающая «замкнутая способность к выполнению»

Опытные разработчики после тестов отмечают: «В сложном кодинге и долгосрочных агентских задачах это действительно доминирующий уровень.»

Когда вы бросаете ему задачу по рефакторингу и отладке нескольких файлов, он может самостоятельно работать несколько часов.

Он активно добавляет логирование, проверяет граничные условия; после изменения кода он даже самостоятельно проверяет, действительно ли исправление сработало. Если в процессе произошел сбой, он может сам исследовать причины, добавить логи, перепроверить, накапливая опыт и продолжая продвижение.

Можно сказать, что у Fable 5 есть надежный старший инженер с коэффициентом победы на SWE-Bench Pro более 80%.

Другой разработчик отметил, что после опыта с Fable 5 действительно чувствуется улучшение.

Восстановление Нью-Йорка за 20 минут

Один пользователь соединил Blender с Fable 5. Всего за 20 минут Fable 5 воссоздал городской пейзаж Нью-Йорка.

Еще более впечатляющей была его логика: он не генерировал вслепую, а сначала получил данные о зданиях из публичных источников, затем начал строить, обеспечивая реальные пропорции всего комплекса зданий.

Такой архитектурный подход абсолютно невозможен для Opus 4.8.

$173 доллара на создание полноценной игры

Известный AI-блогер Riley Brown потратил 173 доллара токенов, всего 4 промпта, чтобы Fable 5 с нуля написал полную игру под названием «The race for Super Intelligence».

«Сомнительные действия» компании A: провальный Sonnet 5

В этой истории с Fable 5 серия «странных действий» компании A сильно подорвала доверие пользователей.

Во-первых, прямо перед снятием ограничений кто-то поймал: Anthropic тайком вставил в системный промпт информацию о муниципальных агентах и AI-лабораториях, незаметно для пользователей.

Сейчас официальные лица быстро извинились, заявив, что это был старый тест, который уберут завтра.

Одновременно выпущенный Sonnet 5 вызвал массовые насмешки.

Многие после всесторонних тестов обнаружили, что его возможности близки к Opus 4.8, но стоимость использования запредельно высока, даже в некоторых случаях сравнима с Fable 5.

Давайте посмотрим на «сравнительную таблицу» от пользователей:

Не только дорого: множество пользователей сообщили, что Sonnet 5 серьезно «ленится», часто отказывается выполнять задачи.

Некоторые даже в ярости: Sonnet 5, выпущенный компанией A вчера, можно выбрасывать в мусорку.

Anthropic «оправдывается» ночью

Вчера было опубликовано подробное официальное сообщение в блоге «Redeploying Fable 5», в котором сквозят стремление к выживанию и немного обиды.

На этот раз Anthropic, очевидно, осознал фундаментальную проблему: в индустрии AI вообще нет единого стандарта безопасности.

Регуляторы не разбираются в технологиях, и при обнаружении «взлома» они блокируют все одним махом, что может повториться несколько раз, и технологическим компаниям не поздоровится.

Поэтому Anthropic привлек гигантов, таких как Amazon, Microsoft, Google, чтобы попытаться разработать «структуру оценки серьезности взлома AI».

Они предлагают оценивать по четырем измерениям:

1. Прирост возможностей: Насколько этот взлом делает пользователя сильнее, чем с существующими инструментами?

2. Широта прироста: Может ли техника взлома атаковать только конкретную цель или она универсальна?

3. Сложность вооружения: Сколько человеческих затрат требуется для превращения в реальную атаку?

4. Обнаруживаемость: Требует ли эта техника взлома высокого профессионального порога или уже общеизвестна?

Только когда все четыре измерения взрываются (например, действительно могут вывести из строя электросеть или банковскую систему), нужно немедленно поднимать высший уровень красной тревоги (мониторинг 24/7 + немедленное смягчение).

Кроме того, Anthropic сделал несколько важных уступок, чтобы задобрить правительство США.

Предварительное тестирование правительством: До выпуска мощной модели дать выбранным государственным органам предварительно протестировать ее, чтобы они сами проверили защитные барьеры.

Быстрый обмен разведданными: При обнаружении серьезного взлома немедленно уведомить правительство и поделиться патч-кодом.

Выделение вычислительных мощностей и команд: Выделить специальные команды и серверные мощности для совместных с правительством исследований безопасности.

Установка вознаграждений: Запустить программу HackerOne, поощряя белых хакеров искать уязвимости в Fable 5.

Fable 5 вернулся, но его путь возвращения оказался более извилистым, чем все ожидали.

Он по-прежнему самая сильная модель, но насколько быстро сможет бежать зверь, скованный защитными барьерами?

Источник: Новый Мудрец

Предупреждение о риске и отказ от ответственности

        Рынок рискован, вложения требуют осторожности. Данная статья не является индивидуальной инвестиционной рекомендацией и не учитывает конкретные инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователи должны оценить, соответствуют ли какие-либо мнения, точки зрения или выводы в данной статье их конкретной ситуации. Инвестиции на основе данной статьи осуществляются на свой страх и риск.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
614,51K Популярность
#
CirclePlunges17%
6,52M Популярность
#
IsraelStrikesIranBTCPlunges
67,6K Популярность
#
PredictWorldCupShare20000U
169,66K Популярность
#
GateCardPointsSystemLaunched
123,97K Популярность

Закреплено

Карта сайта

Fable 5 разблокирован и сразу провалился! Пишешь строку кода — тупеешь, разработчик сломался.

Катастрофический опыт: пиши код — «тупеешь», токены сжигаются больно

Борется с посадкой деревьев, но не с дронами: двойной стандарт бесит разработчиков

Отбросив барьеры, Fable 5 все еще гениальный программист

Ужасающая «замкнутая способность к выполнению»

Восстановление Нью-Йорка за 20 минут

$173 доллара на создание полноценной игры

Рекомендованные промпты для хардкорных игроков

«Сомнительные действия» компании A: провальный Sonnet 5

Anthropic «оправдывается» ночью

Популярные темы

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закреплено