reinforcement learning归档 - 酥酥的温柔乡

发布于 6 天前

18 热度无~ 技术交流

摘要

DPO可否拆分为两个阶段的SFT，一个最小化正样本loss，一个最大化负样本loss？一、DPO是什么？ DPO（Direct …

发布于 2026-01-13

100 热度无~ 技术交流

摘要

在 In-Context RL 的研究热潮中，往往存在一种惯性思维，认为只要把 Transformer 做大，把上下文窗口拉长，模 …

发布于 2025-12-16

78 热度无~ 技术交流

摘要

过去一年来， o1和DeepSeek-R1 的神话，结合媒体的宣传，让 RL 特别像武侠小说里的绝世功法：给个 reward，堆上 …

发布于 2025-10-20

120 热度无~ 技术交流

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

74 热度无~ 技术交流

摘要

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一 …

梦回温柔乡