5つのフロンティアAIモデルが、ファクトチェックの主張の67%で見解が一致しないことが研究で判明
レンズ・リサーチのコスタ・ヨルダノフ研究者によって今月発表された調査では、最先端のAIモデル5つが、現実世界のファクトチェック主張1,000件のうち67%で意見が食い違い、全員一致が起きたのは328件だけだった。研究では、実際のユーザーがファクトチェック・プラットフォームに投稿した主張に対し、GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、検索付きのGemini 3 Pro、Sonar Proをテストした。モデルはKrippendorffのαスコア0.639を達成し、研究者が一般に信頼できるとみなす0.8の閾値を下回った。すべてのモデルが同一の4ラベル方式(true(正しい)、mostly true(概ね正しい)、misleading(誤解を招く)、false(誤り))で同じ主張を評価したにもかかわらず、意見の相違が生じた。結果は、人々がますますAIシステムをファクトチェックに使うようになる中で、信頼性への懸念を浮き彫りにしている。 調査手法:実ユーザーが投稿した主張を使用 この研究では、5つのAIモデルに、実際のユーザーがレンズのファクトチェック・プラットフ
OliverGrant·05-29 17:33

