Reinforcement Learning¶

最近Deepseek的R1模型爆火了，在这之前OpenAI的o1模型也声势浩大。

它们都使用了类似的技术：强化学习（Reinforcement Learning, i.e. RL）。

按照我师兄的说法，“咱强化学习又爆火了一波，上一次还是AlphaGo那个时代”

RL基础¶

参考：https://hrl.boyuai.com/chapter/intro

强化学习和一般的机器学习算法最大的区别在于，一般情况下强化学习是在和环境的交互中动态完成的，而不是在一个固定的数据集上进行学习。

从这一点来看强化学习的概念类似于在线学习，强调序贯决策，随着时间递进新的数据会不断来到。

当然，由于真实场景下（比如自动驾驶、医疗）直接试错代价太高，离线强化学习(Offline RL)也是一个很热门的研究方向，被认为是强化学习技术落地的重要方式。

多臂老虎机¶

马尔可夫决策过程¶

值迭代¶

策略迭代¶

最后更新: 2025-04-28 23:54:40
创建日期: 2025-03-13 00:28:33

广告

人要恰饭的嘛🤑🤑

评论