发布于 2025-02-15
摘要
0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …
0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …
deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …
最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …
已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …
0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …
0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …
省流,可以直接看图片(在底部),还是比较直观的。 最近老是听说AI Agent,仿佛是一条万能的智慧流水线,能直接提供产品和结果( …
初中的时候看到一句话“你必须非常努力,才能看起来毫不费力”。我深受激励,白天掐着大腿根,吞下哈欠,聚精会神地听物理定律;夜晚熄灯后 …
一路历经磨难,一路咬牙坚持,跌跌撞撞却也迎难而上。从白天到黑夜,从酷暑到寒冬,你始终背起行囊日夜兼程地追赶风月。有过困苦挫折,也会 …