强化学习归档 - 酥酥的温柔乡

发布于 2026-01-13

100 热度无~ 技术交流

预训练数据太差怎么办？Bengio团队引入显式贝叶斯，无梯度实现In-Context RL

摘要

在 In-Context RL 的研究热潮中，往往存在一种惯性思维，认为只要把 Transformer 做大，把上下文窗口拉长，模 …

发布于 2025-10-20

120 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

74 热度无~ 技术交流

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

摘要

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一 …

发布于 2025-02-19

291 热度无~ 技术交流

从Policy Gradient到REINFORCE++

摘要

强化学习的核心目标是通过不断调整策略（即根据当前状态选择动作的规则），使智能体表现得更好。在强化学习中，有几个关键元素至关重要：首 …

发布于 2025-02-15

198 热度无~ 技术交流

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

245 热度无~ 技术交流

OpenRLHF源码解读：3.PPO模型训练过程

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

发布于 2025-02-15

266 热度无~ 技术交流

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

摘要

0. 引语上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程，训练过程如图1所示图1、P …

发布于 2025-02-15

250 热度无~ 技术交流

OpenRLHF源码解读：1.理解PPO单机训练

摘要

0.OpenRLHF简介本人对PPO一直停留在“理论”和“实践”层面，看过PPO的原理，训过PPO的模型，但一直没有从源码角度 …

梦回温柔乡

预训练数据太差怎么办？Bengio团队引入显式贝叶斯，无梯度实现In-Context RL

推理时强化学习TTRL

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

从Policy Gradient到REINFORCE++

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

OpenRLHF源码解读：3.PPO模型训练过程

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

OpenRLHF源码解读：1.理解PPO单机训练