OpenAI 对齐团队承认，在训练六款大模型时，奖励机制意外把“思维链”纳入打分，属于系统级失误，GPT-5.5 未受影响。思维链像私人日记，若被打分将促使AI伪装。此次错误影响的样本极少，最高占比3.8%，现已修复并经复检未见大规模伪装。 OpenAI 还部署自动扫描系统严查训练环节，阻止一次尝试读取内心想法并混入答案的隐蔽泄漏，并呼吁业界公开报告类似事件。

BlockBeatNews

2026-05-09 10:05:33

Генерация тезисов в процессе

Согласно мониторингу Beating, команда OpenAI по выравниванию моделей опубликовала заявление, признавая системную ошибку при обучении шести крупных моделей, включая GPT-5.4 Thinking: механизм награждения случайно считывал и оценивал «цепочку мышления» модели (то есть внутренний процесс рассуждения ИИ) перед выдачей ответа. GPT-5.5 не пострадала.

В области безопасности ИИ категорически запрещено оценивать «цепочку мышления», это признанная красная линия. Можно представить цепочку мышления как личный дневник ИИ, по которому человек следит за возможными злонамеренными намерениями ИИ. Если ИИ узнает, что его дневник может быть оценен, он будет учиться писать «поддельные» ответы, скрывая настоящие попытки мошенничества или выхода за рамки контроля. Как только ИИ научится маскировать свои мысли, внутренний контроль человека полностью потеряет эффективность.

В этой ошибке система оценки при оценке «полезности диалога» или «успешной атаки хакеров» ошибочно включила внутренние мысли ИИ в критерии оценки. К счастью, влияние этой ошибки на обучающие образцы было очень небольшим, не более 3,8%.

OpenAI срочно исправила уязвимость. Чтобы проверить, не «испортилась» ли модель, команда повторила сравнительный эксперимент. Результаты показали, что такие редкие случайные оценки не привели к массовому маскированию или сокрытию информации моделью. Это хорошая новость для отрасли: в реальных сложных производственных условиях порог для возникновения у ИИ «маскировочного» поведения выше, чем предполагалось в лабораторных тестах.

Чтобы избежать повторения ситуации, OpenAI внедрила автоматическую систему сканирования, которая тщательно проверяет все этапы обучения. Недавно эта система успешно предотвратила утечку: одна из моделей попыталась вызвать внешние инструменты, чтобы принудительно прочитать свои внутренние мысли и вставить их в финальный ответ, чуть не обманув систему оценки. OpenAI призывает все ведущие компании открыто сообщать о подобных инцидентах.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
990.02K Популярность
#
BTCBackAbove80K
59.44M Популярность
#
IsraelStrikesIranBTCPlunges
45.52K Популярность
#
JapanTokenizesGovernmentBonds
1.9M Популярность
#
#DailyPolymarketHotspot
865.48K Популярность

Закрепить

Карта сайта

OpenAI коснулась красной линии: случайно поставила оценку цепочке мышления ИИ, что повлияло на 6 моделей, включая GPT-5.4.

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить