跳转至

Reinforcement Learning

最近Deepseek的R1模型爆火了,在这之前OpenAI的o1模型也声势浩大。

它们都使用了类似的技术:强化学习(Reinforcement Learning, i.e. RL)。

RL基础

PPO


最后更新: 2025-03-27 23:10:53
创建日期: 2025-03-13 00:28:33

评论