ME News ニュース、5月17日(UTC+8)、RLVR(強化学習と検証)は科学理論の検証において不釣り合いな欠陥を示す可能性がある。科学理論の検証サイクルは数十年、あるいは数世紀に及び、現在より優れたと見なされる理論でさえ、実際にはより悪い予測を行うことが多い。この矛盾は、短期フィードバックに基づく強化学習のパラダイムと、科学的探究の長期性・複雑性との根本的な対立を明らかにし、現行のAI手法が超長期のフィードバックサイクルを伴う科学発見のようなタスクに対して持つ構造的な制約を浮き彫りにしている。(出典:AiHot)
RLVR これについては、科学的検証の面で確かに少し短絡的だ。何十年もかかって反証されるようなものを、彼らは待てないだろう。