这篇讲 forecasting RL 预测强化学习的文章挺有意思。


它做的事情可以这样理解:
拿一批已经有结果的历史预测题,让 AI 回到当时的时间点。
但不能让它直接上今天的互联网,否则会偷看到答案。
所以作者搭了一个「时间遮罩」环境:
搜索只能搜当时以前的资料;
网页通过历史快照读取;
金融和趋势数据也只给当时可见的部分。
然后让模型自己查资料、判断证据、输出概率。
等真实结果揭晓后,用 proper scoring rule 给它打分,再用 RL 去强化更好的预测过程。
这点最有意思:
训练的不是一句答案,而是整套预测动作:
查什么、读什么、什么时候停、怎么处理冲突证据、最后给多少概率。
放到预测市场里,我觉得第一步还不是让 AI 自动交易。
更应该先让它保留 forecast diary:
1. 当时概率
2. 使用证据
3. 市场价格
4. 是否会交易
5. 后续结果
6. 错因归类
如果一个系统说 60% 的时候,长期并不像 60%,那它还不是策略,只是会写理由。
如果你也想练习“记录预测 → 等结果 → 校准自己”,可以从小额/模拟开始,把它当预测日记,而不是交易建议。
我自己用的链接:

原文在这里:

我觉得最值得看的不是结论本身,而是它把“预测”拆成了一个可以训练和复盘的过程。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论