ME News ニュース、5月17日(UTC+8)、RLVR(強化学習と検証)は科学理論の検証において不釣り合いな欠陥を示す可能性がある。科学理論の検証サイクルは数十年、あるいは数世紀に及び、現在より優れたとされる理論も実際にはより悪い予測を行うことが多い。この矛盾は、短期フィードバックに基づく強化学習のパラダイムと、科学探究の長期性・複雑性との根本的な対立を明らかにし、現行のAI手法が超長期のフィードバックサイクルを伴う科学発見のようなタスクに対して持つ構造的な制約を浮き彫りにしている。(出典:AiHot)
クォーターKPIのアルゴリズムを使ってコペルニクスを追跡するのは、確かに少し難しいですね