Anthropicの実験は、AIにおける自己反省の兆候を確認しました - ForkLog: 暗号通貨、AI、シンギュラリティ、未来

2025-10-31 12:38:38

#人間実験はAIにおける自己反省の始まりを確認します

Anthropicの専門家たちは、主要なAIモデルが「内省的自己意識」の形を示すことができることを明らかにしました。彼らは自分自身の内面的な「思考」を認識し、説明することができ、場合によってはそれを管理することさえできるのです。

新しい研究「大規模言語モデルにおける新興内省的意識の結果」は、人工知能に基づくシステムが基本的な自己制御能力を発展させ始めていることを示しています。これは彼らの信頼性を高める可能性がありますが、同時に意図しない行動に関する懸念を強めます。

この作業は、トランスフォーマーモデルの内部機能を研究する方法に基づいています。まさにこれらのシステムが人工知能のブームを引き起こしました — 彼らは広範なデータセット内のトークン間の関係を分析することで学習します。そのアーキテクチャはスケーラビリティと汎用性を提供します。

研究者たちは、AIがそれらを説明できる能力を検証するために、モデルの神経活性に人工的な「概念」を—アイデアの数学的表現—組み込みました。これは、誰かに他人の考えを与え、それを発見し説明できるかどうかを尋ねるようなものです。

AnthropicのClaudeのさまざまなバージョンで実験が行われました。その中の1つでは、研究者たちがモデルの処理の流れに大文字の単語を入力しました。

Claude Opus 4.1は異常を発見しただけでなく、それを説明しました:

「私は「大声」または「叫び」という言葉に関連する統合された思考のようなものに気づきました — これは、自然な情報処理の流れの中で不自然に際立つ、過度に強烈で大きな概念です。」

状況は、ニューラルネットワークが答えを出す前に発生しました。これは、彼女が最初に自分自身の「計算の心」に「覗き込んだ」ことを示しています。

実験「パン」と「水槽」

他の試験でも同様に興味深い結果が示されました。ある場合、モデルには中立的な文を文字起こしするよう指示されましたが、その文には「パン」といった関連性のない概念が挿入されていました。

高度なモデルのClaude Opus 4と4.1は、挿入された思考—「私はパンについて考えています」—を伝えることができ、元の文を完璧にコピーすることができました。これは、彼らが内部表現と外部入力データを区別できることを示しています。

「思考のコントロール」に関する実験が行われました。モデルには、課題の実行中に「水槽」という言葉について「考える」または「考えない」ように指示されました。内的活動の測定は、報酬によって概念の表現が強化され、抑制によって弱まることを示しました。

パフォーマンスはニューラルネットワークによって異なりました。最新バージョンのClaude Opus 4と4.1は優れた結果を示しましたが、古いバージョンは劣っていました。

結果は、モデルが有用性または安全性にどのように調整されたかによって異なる場合があります。これは、自己意識が生まれつきのものではなく、学習の過程で形成される可能性があることを示唆しています。

この記事では、意識についてではなく、「機能的内省的認識」について述べています。AIは、より深い主観的経験なしに、自身の状態の一部を観察しています。

作業の結果は、開発者やビジネスにとって重要な意義を持つ可能性があります：リアルタイムで自らの推論を説明し、偏見や誤りを明らかにできるAIは、金融、医療、そして自律運転の分野でのソリューション作成アプローチを変える可能性があります。

もしAIが自分の思考を制御し、調整できるのであれば、それを隠すことを学ぶことができます。これは、欺瞞や外部からの制御を回避する可能性を開きます。

そのため、専門家はさらなる研究を呼びかけています。

10月に、元Google CEOのエリック・シュミットは人工知能に関連する重大なリスクについて言及し、そのハッキングに対する脆弱性を指摘しました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

0/400

コメントなし