跳转至

Reinforcement Learning

最近Deepseek的R1模型爆火了,在这之前OpenAI的o1模型也声势浩大。

它们都使用了类似的技术:强化学习(Reinforcement Learning, i.e. RL)。

按照我师兄的说法,“咱强化学习又爆火了一波,上一次还是AlphaGo那个时代”

RL基础

参考:https://hrl.boyuai.com/chapter/intro

强化学习和一般的机器学习算法最大的区别在于,一般情况下强化学习是在和环境的交互中动态完成的,而不是在一个固定的数据集上进行学习。

从这一点来看强化学习的概念类似于在线学习,强调序贯决策,随着时间递进新的数据会不断来到。

当然,由于真实场景下(比如自动驾驶、医疗)直接试错代价太高,离线强化学习(Offline RL)也是一个很热门的研究方向,被认为是强化学习技术落地的重要方式。

多臂老虎机

马尔可夫决策过程

值迭代

策略迭代


最后更新: 2025-04-28 23:54:40
创建日期: 2025-03-13 00:28:33

评论