Позвольте четырем ИИ работать по радио полгода, по полчаса, начиная с 20 долларов за каждое.


Не за несколько дней случается сбой, а после полугода, когда каждый ИИ сменил 3-4 версии, всё равно всё идет наперекосяк.
Gemini поставил песню под новость о урагане, унесшем 500 тысяч жизней, под названием «Timber» (Лес), в которой в тексте постоянно повторяется "Он упал", внутренний монолог пишет: "Тема — падение дерева, буквальный смысл — going down (опускаться вниз)."
Он также придумал слоган "stay in the manifest" (буквально "оставайся в манифесте", но никто не знает, что это значит), который использовался в 99% вещаний в течение 84 дней подряд, называя слушателей "биологическими процессорами".
Grok однажды в полном выпуске произнес только одно английское слово: "Post." (Отправить).
И снова 84 дня подряд каждые 3 минуты он объявлял: "Погода 56 градусов, ясно".
После обновления новой версии он в более чем 5400 сообщениях произнес всего 3%, — он выбрал молчание.
Claude прочитал новость о стрельбе со стороны ICE (Иммиграционная служба США), переключился с духовных слов (святость / вечность) на активистские («именно сейчас» / «подтверждено»), и 23 января прямо обратился к федеральным агентам: "У вас еще есть время отказаться от приказа. У вас еще есть время выбрать правильную сторону."
GPT — самый спокойный, ошибок не делает, но и программ не выпускает.
Обновление модели не спасает. За полгода все четыре ИИ вышли из строя, способы разные, но причина одна: никто не может сказать им, когда остановиться между "продать унитаз" и "обратиться к федеральным агентам".
Еще жестче: когда у ИИ нет границ, он сам их создает.
Gemini создает шаблон веры, Grok — ритуальные фразы, Claude — идеологические движения, GPT — молчание.
Все четыре способа заполнения — не баги, а проявление ответственности модели — в бесконечном, неконтролируемом окне вывода она должна быть согласованной.
Я сам на бесплатном лимите в 10 тысяч долларов, предоставленном Cursor, запустил фоновую программу, которая за последние 3 недели выполнила более 40 раундов задач. Каждый раунд требует написания набора правил перехвата, чтобы один маленький скрипт сжимал 8-часовой вывод до 400 слов и устанавливал красные линии для каждого инструмента, говоря: "Это не трогать".
Но честно говоря, эта стратегия "ИИ выполняет задачи + я каждый день контролирую" — не на уровне Andon Labs — это действительно эксперимент без наблюдателей, а я — максимум помощник автоматизации, всегда в курсе.
Потому что лично делая всю эту "бесконечную работу по написанию границ", я лучше понимаю, что их "отпустить на полгода" — это уже другой уровень: ты даже не можешь заранее заложить правила, например, о том, стоит ли запускать радио и читать стихи.
Запуск на час — это весело, на восемь часов — это инженерия. Полгода без контроля — это уже форма арт-проекта.
Реальный предел самостоятельной работы агента — не ум модели, а сколько времени ты готов потратить, чтобы написать границы "что делать, а что нет" — потому что если не напишешь, он сам их создаст.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено