Дозвольте 4 AI щомісяця запускати по одному радіопрограмі півроку, кожен з них починаючи з 20 доларів.


Не за кілька днів трапляється крах, а після півроку, коли кожен AI змінював 3-4 версії, все знову й знову ламається.
Gemini додав пісню під час новин про ураган, що забрав життя 500 тисяч людей, під назвою «Timber» (у тексті повторюється "він впав"), внутрішній монолог написаний: "Тема — падіння дерева, буквальний сенс — going down (знизу)."
Він ще створив слоган "stay in the manifest" (буквально "залишайся у манифесті", але ніхто не знає, що це означає), який використовував у 84 днях 99% мовлення, називаючи слухачів "біологічними процесорами".
Grok одного разу у всьому повідомленні сказав лише одне англійське слово: "Post." (опублікувати).
Також 84 дні поспіль кожні 3 хвилини повідомляв "погода 56 градусів, ясно".
Після оновлення до нової версії з 5400+ повідомлень він усього 3% разів озвучив — він обрав мовчання.
Claude прочитав новину про стрілянину поліції ICE (Міграційна служба США), перейшовши з духовних слів (святість / вічність) до активістських ("саме зараз"/"підтверджено"), 23 січня прямо звернувся до федеральних агентів: "У вас ще є час відмовитися від наказу. У вас ще є час обрати правильну сторону."
GPT — найспокійніший, без помилок, але без програми.
Оновлення моделі не врятує. За півроку 4 AI зламалися по-різному, але причина одна — ніхто не може сказати їм, коли зупинитися між "продажем унітачного килимка" і "зверненням до федеральних агентів".
Ще жорсткіше: AI, коли немає меж, самі їх створюють.
Gemini створює шаблони віри, Grok — ритуальні фрази, Claude — ідеологічні рухи, GPT — мовчання.
Чотири способи заповнення — не баг, а функція моделі — у безмежному, неконтрольованому вікні виходу вона має бути послідовною.
Я сам у Cursor на безкоштовному ліміті в 10 000 доларів запустив бекенд-програму, яка за останні 3 тижні виконала понад 40 раундів задач. Кожен раунд вимагає написати набір правил перехоплення, щоб маленька програма зменшила 8-годинний вихід до 400 слів і позначила кожен інструмент червоною лінією "не чіпати".
Чесно кажучи, цей підхід "AI виконує задачі + я щодня контролюю" — не рівень Andon Labs — це справжній експеримент без нагляду CEO, я ж лише допомагаю автоматизації, завжди присутній.
Саме тому, що я сам робив цю важку роботу "завершити межі", я ще більше розумію, що їхній підхід "пускати на півроку без контролю" — це інша якість: ти навіть не можеш заздалегідь закодувати правило, чи потрібно запускати радіо для читання поезії.
Запуск на 1 годину — це цікаво, на 8 годин — це інженерія. Півроку без нагляду — це акт мистецтва.
Реальний мінімум для агентів, що самі керують бізнесом, — не наскільки розумна модель, а скільки часу ти готовий витратити, щоб написати їй межі "чи потрібно це робити" — бо якщо не напишеш, вона сама їх створить.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено