Claude Opus 4.6 最近好像真的降智了……


上周在 BridgeBench 幻觉基准测试里,它还稳稳排第2,准确率83.3%
结果4月12日重新测试,直接掉到第10名,准确率只剩68.3%,幻觉率暴增98%
前后对比图一看,差距真的很明显
不少人最近用它写代码、做推理时也感觉明显变笨了,指令忘得快、胡说八道增多
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし