DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss?

酥酥 发布于 2026-03-03 114 次阅读


DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss?

一、DPO是什么?

DPO(Direct Preference Optimization) 是一种无需显式训练reward model的偏好对齐算法。
它的核心思想是利用KL约束下的最优policy形式,推导出reward和policy之间的解析映射关系,从而将「最大化reward」的RL目标转化为「最大化偏好数据似然」的分类目标。

—文章来源Alonze