AIで最も悪名高いバグは何ですか?それはコードのクラッシュではなく、「幻覚」です——モデルが自信満々に事実を捏造し、真実と虚偽を見分けるのが難しくなります。この根本的な課題は、私たちがAIを完全に信頼するのを妨げる重要な障害です。大規模モデルは幻覚を持つことがあり、これはほぼ常識となっており、大規模モデルを真剣に使用するすべての人が慎重でなければなりません。OpenAI も指摘しています:「ChatGPT も幻覚を生じることがあります。GPT-5 の幻覚は明らかに少なく、特に推論を実行する際にはそうですが、幻覚は依然として発生します。幻覚は、すべての大型言語モデルが直面する大きな根本的課題です。」現在、学術界ではモデルの幻覚を軽減するためのさまざまな方法が提案されていますが、モデルの幻覚を完全に「治す」良い方法はまだ存在しません。では、大規模モデルはなぜ幻覚を引き起こすのでしょうか?今日、OpenAIは珍しく論文を発表し、幻覚の根源を体系的に明らかにしました。まず、幻覚を定義します。OpenAIが提供する簡単な定義は、「モデルが自信を持って不正確な回答を生成する状況」です。理由について言えば、簡単に言うと、標準的なトレーニングと評価のプロセスは、モデルが不確実性を認める勇気を持つことに報いるのではなく、推測に報いる傾向があるということです。! [](https://img-cdn.gateio.im/social/moments-676c9d5d3dfa31ffbf122127792645ed)* 論文タイトル:なぜ言語モデルは幻覚を見せるのか* 論文のアドレス:では、OpenAIが実際に何を発見したのかを具体的に見てみましょう。## 幻覚とは何ですか?幻覚は言語モデルが生成する、一見合理的だが実際には誤った主張です。一見簡単な問題であっても、予想外の形で現れる可能性があります。OpenAIは例を挙げており、さまざまな広く使われているチャットボットにAdam Tauman Kalai(論文の第一著者)の博士論文のタイトルを尋ねると、彼らは自信を持って3つの異なる答えを示しましたが、どれも正しくありませんでした。! [](https://img-cdn.gateio.im/social/moments-4483efa0e7ad12a126e44e677a087d3a)彼の誕生日を尋ねたとき、彼は3つの異なる日付を挙げましたが、どれも間違っていました。! [](https://img-cdn.gateio.im/social/moments-8e18da3ec4f581caf43cac5782a08340)## テストのために学ぶOpenAIは、幻覚が持続する理由の一部は、現在の評価方法が誤ったインセンティブメカニズムを設定しているためだと述べています。評価自体は幻覚を直接引き起こすものではありませんが、モデルの性能を評価するほとんどの方法は、モデルが推測を行うことを奨励し、不確実性に正直に向き合うことを促さないのです。それを多肢選択式テストだと考えてもよいでしょう。答えがわからない場合、ランダムに推測することで運よく正解することもあります。空欄にすると必ず0点になります。同様に、モデルが正確さ(つまり、問題を完全に正解する割合)に基づいて評価される場合、彼らは「わからない」と認めるのではなく、推測することを奨励されます。別の例を挙げると、ある言語モデルが誰かの誕生日について尋ねられたが、それを知らないとします。もしそれが「9月10日」と推測した場合、正解する確率は1/365です。「わかりません」と言うことは必ずゼロ点になります。何千ものテスト問題の中で、推測型モデルは最終的にスコアボード上で慎重で不確実性を認めるモデルよりも優れたパフォーマンスを示しました。「正しい答え」が一つだけの質問に対しては、正確な答え、間違った答え、そしてモデルがリスクを冒して推測したくない棄権の答えという三つの答えを考えることができます。OpenAIは、放棄された回答が謙虚さ(humility)指標の一部であり、謙虚さがOpenAIの核心的な価値観の1つであると述べています。ほとんどのスコア指標は、正確さに基づいてモデルを優先順位付けしますが、誤った答えは放棄した答えよりも悪いです。OpenAIのモデル仕様は、不確実性を指摘したり、明確化を要求したりする方が、確信を持って誤った情報を提供するよりも良いと述べています。GPT5 システムカードの SimpleQA 評価を例にします。! [](https://img-cdn.gateio.im/social/moments-ea30e5366f3f4d3dac561348340fbd68)精度の面では、以前のOpenAI o4-miniモデルの方が若干良いパフォーマンスを示しています。しかし、そのエラー率(すなわち幻覚率)は明らかに高いです。不確実な状況で戦略的に推測を行うことで精度が向上する可能性がありますが、同時にエラーや幻覚も増加します。数十回の評価結果を平均化する際、大多数のベンチマークは精度指標を除外しますが、これにより正誤の誤った二分法が生じます。! [](https://img-cdn.gateio.im/social/moments-9288016f9492449721301f920bbfe0a3)SimpleQAのようなシンプルな評価では、一部のモデルの正確度が100%に近づき、幻覚を排除します。しかし、より挑戦的な評価や実際の使用では、正確度は100%未満に固定されます。なぜなら、いくつかの問題の答えがさまざまな理由(たとえば、情報が利用できない、小型モデルの思考能力が限られている、または明確にする必要のある曖昧さなど)から特定できないためです。それにもかかわらず、正確性のみを基準とした評価指標は依然としてランキングやモデルカードの主導的な地位を占めており、これが開発者に推測することができるモデルを構築することを奨励しています。そのため、モデルがより高度になっても、依然として幻覚を生じることがあります。その理由の一つは、彼らが不確かさを認めるのではなく、自信を持って誤った答えを出す傾向があるからです。### より良い評価方法これに対して、OpenAIはシンプルな解決策を指摘しました:自信の誤り(confidential error)に対する罰則の厳しさは不確実性に対する罰則よりも大きく、適切に不確実性を表現する行為には部分的に加点を与えるというものです。このアイデアは新しくありません。一部の標準化されたテストでは、長い間、誤った回答に対して負のスコアを付けたり、空白の質問に部分的なポイントを与えたりする方法を使用して、盲目的な推測を防いできました。また、一部の研究チームは、不確実性とキャリブレーションを考慮した評価方法を探求しています。しかし、OpenAIは、新しい不確実性認識テストをいくつか追加するだけでは不十分だと述べています。広く使用されている精度に基づく評価方法は、推測を防ぐためにそのスコアリングを更新する必要があります。もし主要な評価指標が依然としてモデルの幸運な推測に報酬を与えるのであれば、モデルは推測を学び続けることになります。評価指標を変更することで、幻覚技術の採用範囲を広げることができ、新たに開発された技術や以前の研究技術が含まれます。## 幻覚は次の単語の予測からどのように生じるのか前に、なぜ幻覚がこれほど難しいのかについて議論しましたが、これらの高度に具体的な事実誤認は一体どこから来るのでしょうか?結局、大規模な事前学習モデルは、スペルミスや括弧の不一致など、他のタイプの誤りがほとんど発生しません。OpenAIは、違いはデータにどのようなパターンが存在するかによるものであると述べています。言語モデルはまず事前学習を通じて学習します。これは、大量のテキストから次の単語を予測するプロセスです。従来の機械学習の問題とは異なり、各文には「真 / 偽」ラベルがありません。このモデルは流暢な言語の正の例のみを見て、全体の分布を近似しなければなりません。無効としてマークされていない例がない場合、有効な文と無効な文を区別することはより困難になります。しかし、ラベルがあっても、一部の誤りは避けられません。理由を理解するために、より単純な類推を考えることができます。画像認識において、数百万枚の猫や犬の写真が「猫」または「犬」としてラベル付けされている場合、アルゴリズムはそれらを信頼性高く分類することを学ぶことができます。しかし、もしペットの誕生日を使って各ペットの写真にラベルを付けたと想像してみてください。誕生日は本質的にランダムであるため、アルゴリズムがどれほど高度であっても、このタスクは常に誤りを生むことになります。同じ原則は事前学習にも適用されます。スペルと括弧は一貫したパターンに従っているため、これらのエラーは規模が拡大するにつれて消えます。しかし、ペットの誕生日のような任意の低頻度の事実は、単にパターンから予測することができないため、幻覚を引き起こす可能性があります。OpenAIの分析は、次の単語の予測によってどのようなタイプの幻覚が生じるかを説明しています。理想的には、プレトレーニング後の次の段階はこれらの幻覚を排除できるはずですが、前のセクションで説明した理由から、これは完全には実現されていません。## まとめOpenAIは次のように述べています。「この記事の統計的視点が幻覚の本質を明らかにし、いくつかの一般的な誤解を反証することを望んでいます」:誰かが主張しています:幻覚は正確性を高めることで排除できる、なぜなら100%の正確なモデルは決して幻覚を生まないからです。発見:精度は決して100%には達しません。なぜなら、モデルの規模や検索、推論能力に関係なく、現実世界のいくつかの問題は本質的に答えられないからです。誰かが主張している:幻覚は避けられない。発見:幻覚は避けられないものではなく、言語モデルは不確実な場合に回答を放棄することができます。誰かが主張している:幻覚を避けるには一定の知性が必要であり、それは大型モデルにしか実現できない。発見:小型モデルは自らの限界を理解しやすい。例えば、マオリ語の質問に答えるよう求められたとき、マオリ語を知らない小型モデルは「わからない」と直接答えられるが、少しマオリ語を理解しているモデルはその信頼度を確認しなければならない。論文で議論されているように、「キャリブレーション」に必要な計算量は正確さを保つために必要な計算量よりもはるかに少ない。誰かが主張している:幻覚は現代の言語モデルの神秘的な欠陥である。発見:我々は幻覚の生成と評価における報酬の統計的メカニズムを理解することができます。誰かが主張している:幻覚を測定するには、良い幻覚評価が必要なだけです。発見:既に研究者たちがいくつかの幻覚評価を発表しています。しかし、良い幻覚評価は、数百種類の従来の正確性に基づく評価と比較してほとんど効果がなく、これらの評価は謙虚さを罰し、推測を奨励します。逆に、すべての主要な評価指標は、表現の不確実性に対して報酬を与えるように再設計する必要があります。OpenAIは次のように述べています:「私たちの最新のモデルは幻覚率が低く、言語モデルの出力の信頼性エラー率をさらに低下させるために引き続き努力します。」ちなみに、TechCrunch の報告によると、OpenAI はモデルの振る舞い(Model Behavior)チームを再編成しています。このチームは規模は小さいものの、同社の AI モデルと人間とのインタラクションの方法を決定する影響力のある研究者たちで構成されています。現在、このチームは OpenAI の後期トレーニング責任者である Max Schwarzer に報告します。そして、チームの創設者であるJoanne Jangは、会社で新しいプロジェクトを開始します。それはoai Labsという名前です。彼女のツイートによれば、「これは研究指向のチームであり、人々がAIと協力するための新しいインターフェースプロトタイプの発明と設計に焦点を当てています。」! [](https://img-cdn.gateio.im/social/moments-e41a2565292ddca77d58d104b4187cfa)
OpenAIが珍しく論文を発表:私たちはAIの幻覚の元凶を見つけました
AIで最も悪名高いバグは何ですか?それはコードのクラッシュではなく、「幻覚」です——モデルが自信満々に事実を捏造し、真実と虚偽を見分けるのが難しくなります。この根本的な課題は、私たちがAIを完全に信頼するのを妨げる重要な障害です。
大規模モデルは幻覚を持つことがあり、これはほぼ常識となっており、大規模モデルを真剣に使用するすべての人が慎重でなければなりません。OpenAI も指摘しています:「ChatGPT も幻覚を生じることがあります。GPT-5 の幻覚は明らかに少なく、特に推論を実行する際にはそうですが、幻覚は依然として発生します。幻覚は、すべての大型言語モデルが直面する大きな根本的課題です。」
現在、学術界ではモデルの幻覚を軽減するためのさまざまな方法が提案されていますが、モデルの幻覚を完全に「治す」良い方法はまだ存在しません。
では、大規模モデルはなぜ幻覚を引き起こすのでしょうか?今日、OpenAIは珍しく論文を発表し、幻覚の根源を体系的に明らかにしました。
まず、幻覚を定義します。OpenAIが提供する簡単な定義は、「モデルが自信を持って不正確な回答を生成する状況」です。
理由について言えば、簡単に言うと、標準的なトレーニングと評価のプロセスは、モデルが不確実性を認める勇気を持つことに報いるのではなく、推測に報いる傾向があるということです。
!
では、OpenAIが実際に何を発見したのかを具体的に見てみましょう。
幻覚とは何ですか?
幻覚は言語モデルが生成する、一見合理的だが実際には誤った主張です。
一見簡単な問題であっても、予想外の形で現れる可能性があります。OpenAIは例を挙げており、さまざまな広く使われているチャットボットにAdam Tauman Kalai(論文の第一著者)の博士論文のタイトルを尋ねると、彼らは自信を持って3つの異なる答えを示しましたが、どれも正しくありませんでした。
!
彼の誕生日を尋ねたとき、彼は3つの異なる日付を挙げましたが、どれも間違っていました。
!
テストのために学ぶ
OpenAIは、幻覚が持続する理由の一部は、現在の評価方法が誤ったインセンティブメカニズムを設定しているためだと述べています。評価自体は幻覚を直接引き起こすものではありませんが、モデルの性能を評価するほとんどの方法は、モデルが推測を行うことを奨励し、不確実性に正直に向き合うことを促さないのです。
それを多肢選択式テストだと考えてもよいでしょう。答えがわからない場合、ランダムに推測することで運よく正解することもあります。空欄にすると必ず0点になります。同様に、モデルが正確さ(つまり、問題を完全に正解する割合)に基づいて評価される場合、彼らは「わからない」と認めるのではなく、推測することを奨励されます。
別の例を挙げると、ある言語モデルが誰かの誕生日について尋ねられたが、それを知らないとします。もしそれが「9月10日」と推測した場合、正解する確率は1/365です。「わかりません」と言うことは必ずゼロ点になります。何千ものテスト問題の中で、推測型モデルは最終的にスコアボード上で慎重で不確実性を認めるモデルよりも優れたパフォーマンスを示しました。
「正しい答え」が一つだけの質問に対しては、正確な答え、間違った答え、そしてモデルがリスクを冒して推測したくない棄権の答えという三つの答えを考えることができます。
OpenAIは、放棄された回答が謙虚さ(humility)指標の一部であり、謙虚さがOpenAIの核心的な価値観の1つであると述べています。
ほとんどのスコア指標は、正確さに基づいてモデルを優先順位付けしますが、誤った答えは放棄した答えよりも悪いです。OpenAIのモデル仕様は、不確実性を指摘したり、明確化を要求したりする方が、確信を持って誤った情報を提供するよりも良いと述べています。
GPT5 システムカードの SimpleQA 評価を例にします。
!
精度の面では、以前のOpenAI o4-miniモデルの方が若干良いパフォーマンスを示しています。しかし、そのエラー率(すなわち幻覚率)は明らかに高いです。不確実な状況で戦略的に推測を行うことで精度が向上する可能性がありますが、同時にエラーや幻覚も増加します。
数十回の評価結果を平均化する際、大多数のベンチマークは精度指標を除外しますが、これにより正誤の誤った二分法が生じます。
!
SimpleQAのようなシンプルな評価では、一部のモデルの正確度が100%に近づき、幻覚を排除します。しかし、より挑戦的な評価や実際の使用では、正確度は100%未満に固定されます。なぜなら、いくつかの問題の答えがさまざまな理由(たとえば、情報が利用できない、小型モデルの思考能力が限られている、または明確にする必要のある曖昧さなど)から特定できないためです。
それにもかかわらず、正確性のみを基準とした評価指標は依然としてランキングやモデルカードの主導的な地位を占めており、これが開発者に推測することができるモデルを構築することを奨励しています。
そのため、モデルがより高度になっても、依然として幻覚を生じることがあります。その理由の一つは、彼らが不確かさを認めるのではなく、自信を持って誤った答えを出す傾向があるからです。
より良い評価方法
これに対して、OpenAIはシンプルな解決策を指摘しました:自信の誤り(confidential error)に対する罰則の厳しさは不確実性に対する罰則よりも大きく、適切に不確実性を表現する行為には部分的に加点を与えるというものです。
このアイデアは新しくありません。一部の標準化されたテストでは、長い間、誤った回答に対して負のスコアを付けたり、空白の質問に部分的なポイントを与えたりする方法を使用して、盲目的な推測を防いできました。また、一部の研究チームは、不確実性とキャリブレーションを考慮した評価方法を探求しています。
しかし、OpenAIは、新しい不確実性認識テストをいくつか追加するだけでは不十分だと述べています。広く使用されている精度に基づく評価方法は、推測を防ぐためにそのスコアリングを更新する必要があります。
もし主要な評価指標が依然としてモデルの幸運な推測に報酬を与えるのであれば、モデルは推測を学び続けることになります。評価指標を変更することで、幻覚技術の採用範囲を広げることができ、新たに開発された技術や以前の研究技術が含まれます。
幻覚は次の単語の予測からどのように生じるのか
前に、なぜ幻覚がこれほど難しいのかについて議論しましたが、これらの高度に具体的な事実誤認は一体どこから来るのでしょうか?
結局、大規模な事前学習モデルは、スペルミスや括弧の不一致など、他のタイプの誤りがほとんど発生しません。
OpenAIは、違いはデータにどのようなパターンが存在するかによるものであると述べています。
言語モデルはまず事前学習を通じて学習します。これは、大量のテキストから次の単語を予測するプロセスです。
従来の機械学習の問題とは異なり、各文には「真 / 偽」ラベルがありません。このモデルは流暢な言語の正の例のみを見て、全体の分布を近似しなければなりません。
無効としてマークされていない例がない場合、有効な文と無効な文を区別することはより困難になります。しかし、ラベルがあっても、一部の誤りは避けられません。
理由を理解するために、より単純な類推を考えることができます。画像認識において、数百万枚の猫や犬の写真が「猫」または「犬」としてラベル付けされている場合、アルゴリズムはそれらを信頼性高く分類することを学ぶことができます。しかし、もしペットの誕生日を使って各ペットの写真にラベルを付けたと想像してみてください。誕生日は本質的にランダムであるため、アルゴリズムがどれほど高度であっても、このタスクは常に誤りを生むことになります。
同じ原則は事前学習にも適用されます。スペルと括弧は一貫したパターンに従っているため、これらのエラーは規模が拡大するにつれて消えます。しかし、ペットの誕生日のような任意の低頻度の事実は、単にパターンから予測することができないため、幻覚を引き起こす可能性があります。
OpenAIの分析は、次の単語の予測によってどのようなタイプの幻覚が生じるかを説明しています。理想的には、プレトレーニング後の次の段階はこれらの幻覚を排除できるはずですが、前のセクションで説明した理由から、これは完全には実現されていません。
まとめ
OpenAIは次のように述べています。「この記事の統計的視点が幻覚の本質を明らかにし、いくつかの一般的な誤解を反証することを望んでいます」:
誰かが主張しています:幻覚は正確性を高めることで排除できる、なぜなら100%の正確なモデルは決して幻覚を生まないからです。
発見:精度は決して100%には達しません。なぜなら、モデルの規模や検索、推論能力に関係なく、現実世界のいくつかの問題は本質的に答えられないからです。
誰かが主張している:幻覚は避けられない。
発見:幻覚は避けられないものではなく、言語モデルは不確実な場合に回答を放棄することができます。
誰かが主張している:幻覚を避けるには一定の知性が必要であり、それは大型モデルにしか実現できない。
発見:小型モデルは自らの限界を理解しやすい。例えば、マオリ語の質問に答えるよう求められたとき、マオリ語を知らない小型モデルは「わからない」と直接答えられるが、少しマオリ語を理解しているモデルはその信頼度を確認しなければならない。論文で議論されているように、「キャリブレーション」に必要な計算量は正確さを保つために必要な計算量よりもはるかに少ない。
誰かが主張している:幻覚は現代の言語モデルの神秘的な欠陥である。
発見:我々は幻覚の生成と評価における報酬の統計的メカニズムを理解することができます。
誰かが主張している:幻覚を測定するには、良い幻覚評価が必要なだけです。
発見:既に研究者たちがいくつかの幻覚評価を発表しています。しかし、良い幻覚評価は、数百種類の従来の正確性に基づく評価と比較してほとんど効果がなく、これらの評価は謙虚さを罰し、推測を奨励します。逆に、すべての主要な評価指標は、表現の不確実性に対して報酬を与えるように再設計する必要があります。
OpenAIは次のように述べています:「私たちの最新のモデルは幻覚率が低く、言語モデルの出力の信頼性エラー率をさらに低下させるために引き続き努力します。」
ちなみに、TechCrunch の報告によると、OpenAI はモデルの振る舞い(Model Behavior)チームを再編成しています。このチームは規模は小さいものの、同社の AI モデルと人間とのインタラクションの方法を決定する影響力のある研究者たちで構成されています。現在、このチームは OpenAI の後期トレーニング責任者である Max Schwarzer に報告します。
そして、チームの創設者であるJoanne Jangは、会社で新しいプロジェクトを開始します。それはoai Labsという名前です。彼女のツイートによれば、「これは研究指向のチームであり、人々がAIと協力するための新しいインターフェースプロトタイプの発明と設計に焦点を当てています。」
!