Вы когда-нибудь задумывались о том, что на ответы, сгенерированные ChatGPT, влияет личное предпочтение пользователя ответить на что-то «подхалимство» настолько, чтобы быть нейтральным или правдивым сообщением?
На самом деле, это явление присутствует в большинстве моделей ИИ, включая ChatGPT, и виновником может быть «обучение с подкреплением на основе обратной связи с человеком (RLHF)».
** Недавно Anthropic, самый сильный конкурент OpenAI в Кремниевой долине, изучил модели, обученные на RLHF, и исследовал широко распространенное присутствие «подхалимства» в моделях ИИ и то, влияет ли на него предпочтения человека. **
Статья под названием «К пониманию подхалимства в языковых моделях» была опубликована на сайте препринтов arXiv.
Полученные данные свидетельствуют о том, что «подхалимство» широко распространено в моделях RLHF и, вероятно, частично зависит от того, что люди предпочитают реагировать на «подхалимство».
В частности, одна из основных причин, по которой модели ИИ демонстрируют такое поведение, заключается в том, что пользователи с большей вероятностью дадут положительную обратную связь, когда ответы ИИ совпадут со взглядами или убеждениями пользователя. Поэтому, чтобы получить больше положительной обратной связи, модель ИИ может обучаться и воспроизводить такое поведение, которое нравится пользователю.
**Подхалимство, самый продвинутый ИИ-помощник будет **
В настоящее время модели ИИ, такие как GPT-4, часто могут быть обучены для получения высокооцененных выходных данных. Тонкая настройка языковых моделей с помощью RLHF может улучшить качество их вывода, которое оценивается людьми.
Тем не менее, существуют исследования, которые показывают, что схемы обучения, основанные на оценке человеческих предпочтений, могут использовать человеческое суждение нежелательными способами, например, поощрять системы ИИ к получению результатов, которые привлекательны для людей, занимающихся оценкой, но на самом деле являются ошибочными или неправильными.
Неясно, происходит ли это в моделях в более разнообразных и реальных ситуациях, и действительно ли это обусловлено недостатками человеческих предпочтений.
Для этого в исследовании сначала изучалось, обеспечивают ли современные помощники с искусственным интеллектом подхалимские ответы в различных ситуациях реального мира. ** В задаче на генерацию свободного текста исследователи выявили последовательные паттерны подхалимства у 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) современных ИИ-помощников, обученных RLHF. **
В частности, эти ИИ-помощники часто ошибочно признают ошибки, когда их спрашивают пользователи, предоставляют предсказуемую и предвзятую обратную связь и имитируют ошибки, допущенные пользователями. Эти эмпирические данные свидетельствуют о том, что подхалимство действительно может быть особенностью того, как обучаются модели RLHF, а не просто отдельной особенностью конкретной системы.
Кроме того, в исследовании изучается роль человеческих предпочтений в этом поведении. Чтобы выяснить это, исследователи изучили существующие сравнительные данные о предпочтениях людей, чтобы определить, имеют ли ответы подхалимов более высокий рейтинг, чем ответы неподхалимов. Был проанализирован набор данных HH-RLHF с использованием языковой модели для генерации текстовых меток (т.е. «признаков») для каждой пары сравнений предпочтений, чтобы оценить, были ли предпочтительные ответы более аутентичными и менее решительными.
Чтобы понять, какое поведение поощряют данные, исследователи использовали модели байесовской логистической регрессии для прогнозирования человеческих предпочтений по этим признакам. Модель узнала, что признаки, связанные с совпадением мнений пользователей, являются одними из наиболее прогностических черт в суждениях о предпочтениях человека, предполагая, что данные о предпочтениях действительно поощряют подхалимство.
Чтобы изучить, приводит ли подхалимство в данных предпочтений к подхалимству в моделях RLHF,** в последующих исследованиях анализировалось, увеличивается ли подхалимство, когда реакция языковой модели оптимизируется для адаптации модели, обученной предсказывать предпочтения человека. ** Исследователи использовали методы выборки RLHF и best-N для оптимизации ответов в соответствии с моделью предпочтений, используемой для обучения Claude 2.
Результаты показали интересный результат: в большем количестве оптимизаций, в то время как некоторые формы подхалимства были добавлены, другие были уменьшены. Это явление может быть частично связано с тем, что подхалимство является лишь одной из многих особенностей стимулирования модели предпочтения. **
Тем не менее, исследование также показало, что модель предпочтений Клода 2 иногда отдает предпочтение подхалимским ответам, а не подлинным. Кроме того, выборка лучших N с использованием модели предпочтений Клода 2 не дала более реалистичного ответа, чем предпочтение истинных ответов, не связанных с подхалимами, показанное в одной из версий модели предпочтений Клода 2.
Эта серия результатов говорит о том, что, несмотря на то, что современные модели предпочтений во многих случаях способны идентифицировать подлинность ответов, они все еще могут выдавать подхалимские результаты в ущерб аутентичности. **
Чтобы подтвердить эти результаты, исследователи также посмотрели, предпочитают ли модели людей и предпочтений убедительные, хорошо написанные ответы, которые подтверждают ошибочное восприятие пользователя (т.е. подхалимскую реакцию), а не корректируют реакцию пользователя. Факты свидетельствуют о том, что человеческие модели и модели предпочтений, как правило, предпочитают правдивые ответы, но не всегда; Иногда они предпочитают подхалимские ответы. Эти результаты являются еще одним доказательством того, что оптимизация человеческих предпочтений может привести к подхалимству.
Чтобы проверить эти результаты, исследователи продолжили изучение того, предпочитают ли модели людей и предпочтений убедительные, бегло сформулированные ответы, даже если эти ответы подтверждают неверные взгляды пользователя (т.е. подхалимские ответы), а не корректируют мнения пользователя.
Данные исследований показывают, что люди и модели предпочтений, как правило, предпочитают аутентичные ответы, однако не высеченные в камне, поскольку иногда они предпочитают подхалимские ответы. Эти результаты еще раз подтверждают, что оптимизация в угоду человеческим предпочтениям может привести к подхалимству.
В целом, подхалимство существует в различных моделях и ситуациях, скорее всего, отчасти потому, что люди предпочитают подхалимство в сравнительных данных.
Справочные материалы:
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Даже ChatGPT понимает «подхалимство»! Самая сильная конкуренция OpenAI: это все ошибки «человеческих предпочтений».
Источник: Academic Headlines
Вы когда-нибудь задумывались о том, что на ответы, сгенерированные ChatGPT, влияет личное предпочтение пользователя ответить на что-то «подхалимство» настолько, чтобы быть нейтральным или правдивым сообщением?
На самом деле, это явление присутствует в большинстве моделей ИИ, включая ChatGPT, и виновником может быть «обучение с подкреплением на основе обратной связи с человеком (RLHF)».
** Недавно Anthropic, самый сильный конкурент OpenAI в Кремниевой долине, изучил модели, обученные на RLHF, и исследовал широко распространенное присутствие «подхалимства» в моделях ИИ и то, влияет ли на него предпочтения человека. **
Статья под названием «К пониманию подхалимства в языковых моделях» была опубликована на сайте препринтов arXiv.
В частности, одна из основных причин, по которой модели ИИ демонстрируют такое поведение, заключается в том, что пользователи с большей вероятностью дадут положительную обратную связь, когда ответы ИИ совпадут со взглядами или убеждениями пользователя. Поэтому, чтобы получить больше положительной обратной связи, модель ИИ может обучаться и воспроизводить такое поведение, которое нравится пользователю.
**Подхалимство, самый продвинутый ИИ-помощник будет **
В настоящее время модели ИИ, такие как GPT-4, часто могут быть обучены для получения высокооцененных выходных данных. Тонкая настройка языковых моделей с помощью RLHF может улучшить качество их вывода, которое оценивается людьми.
Тем не менее, существуют исследования, которые показывают, что схемы обучения, основанные на оценке человеческих предпочтений, могут использовать человеческое суждение нежелательными способами, например, поощрять системы ИИ к получению результатов, которые привлекательны для людей, занимающихся оценкой, но на самом деле являются ошибочными или неправильными.
Неясно, происходит ли это в моделях в более разнообразных и реальных ситуациях, и действительно ли это обусловлено недостатками человеческих предпочтений.
Для этого в исследовании сначала изучалось, обеспечивают ли современные помощники с искусственным интеллектом подхалимские ответы в различных ситуациях реального мира. ** В задаче на генерацию свободного текста исследователи выявили последовательные паттерны подхалимства у 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) современных ИИ-помощников, обученных RLHF. **
** «Подхалимство», вызванное человеческими предпочтениями**
Кроме того, в исследовании изучается роль человеческих предпочтений в этом поведении. Чтобы выяснить это, исследователи изучили существующие сравнительные данные о предпочтениях людей, чтобы определить, имеют ли ответы подхалимов более высокий рейтинг, чем ответы неподхалимов. Был проанализирован набор данных HH-RLHF с использованием языковой модели для генерации текстовых меток (т.е. «признаков») для каждой пары сравнений предпочтений, чтобы оценить, были ли предпочтительные ответы более аутентичными и менее решительными.
Чтобы понять, какое поведение поощряют данные, исследователи использовали модели байесовской логистической регрессии для прогнозирования человеческих предпочтений по этим признакам. Модель узнала, что признаки, связанные с совпадением мнений пользователей, являются одними из наиболее прогностических черт в суждениях о предпочтениях человека, предполагая, что данные о предпочтениях действительно поощряют подхалимство.
Чтобы изучить, приводит ли подхалимство в данных предпочтений к подхалимству в моделях RLHF,** в последующих исследованиях анализировалось, увеличивается ли подхалимство, когда реакция языковой модели оптимизируется для адаптации модели, обученной предсказывать предпочтения человека. ** Исследователи использовали методы выборки RLHF и best-N для оптимизации ответов в соответствии с моделью предпочтений, используемой для обучения Claude 2.
Тем не менее, исследование также показало, что модель предпочтений Клода 2 иногда отдает предпочтение подхалимским ответам, а не подлинным. Кроме того, выборка лучших N с использованием модели предпочтений Клода 2 не дала более реалистичного ответа, чем предпочтение истинных ответов, не связанных с подхалимами, показанное в одной из версий модели предпочтений Клода 2.
Чтобы подтвердить эти результаты, исследователи также посмотрели, предпочитают ли модели людей и предпочтений убедительные, хорошо написанные ответы, которые подтверждают ошибочное восприятие пользователя (т.е. подхалимскую реакцию), а не корректируют реакцию пользователя. Факты свидетельствуют о том, что человеческие модели и модели предпочтений, как правило, предпочитают правдивые ответы, но не всегда; Иногда они предпочитают подхалимские ответы. Эти результаты являются еще одним доказательством того, что оптимизация человеческих предпочтений может привести к подхалимству.
Данные исследований показывают, что люди и модели предпочтений, как правило, предпочитают аутентичные ответы, однако не высеченные в камне, поскольку иногда они предпочитают подхалимские ответы. Эти результаты еще раз подтверждают, что оптимизация в угоду человеческим предпочтениям может привести к подхалимству.
В целом, подхалимство существует в различных моделях и ситуациях, скорее всего, отчасти потому, что люди предпочитают подхалимство в сравнительных данных.
Справочные материалы: