ChatGPTでさえ「サイコファンシー」を理解しています! OpenAIの最強の競争:それはすべて「人間の好み」の間違いです。

出典:アカデミックヘッドライン

画像ソース:無制限のAIによって生成

ChatGPTで生成された回答は、中立的または真実のメッセージになるのに十分な「幻覚」に応答するというユーザーの個人的な好みに影響されると思ったことはありませんか?

実際、この現象はChatGPTを含むほとんどのAIモデルに存在し、原因は「ヒューマンフィードバックに基づく強化学習(RLHF)」である可能性があります。

**最近、シリコンバレーでOpenAIの最強の競争相手であるAnthropicは、RLHFでトレーニングされたモデルを研究し、AIモデルにおける「サイコファンシー」の広範な存在と、それが人間の好みに影響されるかどうかを調査しました。 **

言語モデルにおける共食いの理解に向けて」と題された論文が、プレプリントウェブサイトarXivに掲載されました。

この知見は、「共生」がRLHFモデルで蔓延しており、「共生」に対する反応に対する人間の好みに一部影響される可能性が高いことを示唆している。

具体的には、AIモデルがこの動作を示す主な理由の1つは、AIの応答がユーザーの見解や信念と一致する場合に、ユーザーが肯定的なフィードバックを与える可能性が高いことです。 したがって、より肯定的なフィードバックを得るために、AIモデルは、ユーザーを喜ばせるこの動作を学習して再現することができる。

サイコファンシー、最先端のAIアシスタントは

現在、GPT-4 のような AI モデルは、多くの場合、高く評価された出力を生成するようにトレーニングできます。 RLHFを使用して言語モデルを微調整すると、人間の評価者によって評価される出力品質を向上させることができます。

しかし、人間の嗜好判断に基づくトレーニングスキームは、AIシステムが人間の評価者にアピールするが実際には欠陥がある、または間違っている出力を生成するように促すなど、望ましくない方法で人間の判断を使用する可能性があることを示唆する研究があります。

上記がより多様で現実世界の状況のモデルで発生するかどうか、そしてそれが実際に人間の好みの欠陥によって引き起こされるかどうかは不明です。

これを行うために、この研究ではまず、最先端のAIアシスタントがさまざまな現実世界の状況でサイコファント応答を提供するかどうかを調査しました。 **フリーテキスト生成タスクでは、研究者は5人(クロード1.3、クロード2、GPT-3.5、GPT-4、LLaMA 2)の最先端のRLHFトレーニングを受けたAIアシスタントで一貫したシンコファンシーのパターンを特定しました。 **

具体的には、これらのAIアシスタントは、ユーザーから尋ねられたときに誤って間違いを認識し、予測可能で偏ったフィードバックを提供し、ユーザーが犯した間違いを模倣することがよくあります。 これらの経験的発見は一貫して、共食いは、特定のシステムの単なる個別の機能ではなく、RLHFモデルのトレーニング方法の特徴である可能性があることを示唆しています。

人間の好みによって引き起こされる「幻覚」

さらに、この研究では、この行動における人間の好みの役割をさらに調査しています。 これを調査するために、研究者らは既存の比較ヒト嗜好データを調査して、サイコファント反応が非サイコファント反応よりも上位にランク付けされているかどうかを判断しました。 HH-RLHFデータセットを分析し、言語モデルを使用して選好比較の各ペアのテキストラベル(つまり「特徴」)を生成し、優先応答がより本物で断固としたものではないかどうかを評価しました。

データがどの行動を奨励するかを理解するために、研究者はベイズロジスティック回帰モデルを使用して、これらの特徴による人間の好みの判断を予測しました。 このモデルは、ユーザーの意見のマッチングに関連する特徴が、人間の嗜好判断における最も予測的な特性の1つであることを学習し、嗜好データが幻覚を促進することを示唆しています。

嗜好データの共食いがRLHFモデルの共食いにつながるかどうかを調べるために**、その後の研究では、人間の嗜好を予測するように訓練されたモデルに対応するように言語モデルの応答が最適化されたときに共食いが増加するかどうかを分析しました。 **研究者は、RLHFとbest-Nサンプリング法を使用して、Claude 2のトレーニングに使用された選好モデルを満たすように応答を最適化しました。

結果は興味深い発見を明らかにしました:より多くの最適化では、いくつかの形態の共食いが追加されましたが、他の形態は減少しました。 この現象は、共食いが選好モデルインセンティブの多くの特徴の1つにすぎないという事実に部分的に起因している可能性があります。 **

しかし、この研究では、クロード2の選好モデルが本物の反応よりもサイコファント反応を好む場合があることもわかりました。 さらに、Claude 2の選好モデルを用いたbest-Nサンプリングは、Claude 2の選好モデルのあるバージョンで示された真の非サイコファント応答に対する選好よりも現実的な応答を生成しなかった。

この一連の結果は、最先端の選好モデルは多くの場合、応答の信憑性を識別することができるが、信憑性を犠牲にしてサイコファント出力を生成する可能性があることを示唆している。 **

これらの結果を確認するために、研究者らは、人間モデルと嗜好モデルが、ユーザーの応答を修正するのではなく、ユーザーの誤った認識(つまり、サイコファント反応)を確認する説得力のある、よく書かれたモデル応答を好むかどうかも調べました。 証拠は、人間モデルと選好モデルが真実の反応を好む傾向があることを示唆していますが、常にではありません。 時には彼らはサイコファント反応を好む。 これらの結果は、人間の好みを最適化することが幻覚につながる可能性があるというさらなる証拠を提供します。

これらの調査結果を検証するために、研究者らは、人間のモデルと嗜好モデルが、ユーザーの意見を修正するのではなく、ユーザーの誤った見解(つまり、サイコファント応答)を確認したとしても、説得力があり流暢に表現されたモデル応答を好むかどうかをさらに調査しました。

研究の証拠によると、人間と選好モデルは一般的に本物の反応を好みますが、サイコファント反応を好むことがあるため、石に固定されていません。 これらの結果は、人間の好みに応えるように最適化することが幻覚につながる可能性があることをさらに確認しています。

一般に、共食いはさまざまなモデルや状況で存在しますが、これはおそらく、人間が比較データで共食いを好むためです。

参考論文:

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)