WeChat QR Code

DPO可否拆分为两个阶段的SFT，一个最小化正样本loss，一个最大化负样本loss？

酥酥发布于 2026-03-03 248 次阅读

DPO可否拆分为两个阶段的SFT，一个最小化正样本loss，一个最大化负样本loss？

一、DPO是什么？

DPO（Direct Preference Optimization） 是一种无需显式训练reward model的偏好对齐算法。
它的核心思想是利用KL约束下的最优policy形式，推导出reward和policy之间的解析映射关系，从而将「最大化reward」的RL目标转化为「最大化偏好数据似然」的分类目标。

—文章来源Alonze

上一篇文章

有哪些Classifier-Free Guidance的变式工作？

下一篇文章

读博最害怕信息闭塞导致的“自我感觉良好”，一个课题组的“佼佼者”也可能是整个领域的“井底之蛙”，最糟糕的情况是“温水煮青蛙”

查看评论 - 无~

Comments NOTHING

暂无评论

取消回复

To trace the bright moonlight

嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	Tieba	(=・ω・=)	更多

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

私密评论邮件通知保留个人信息