大模型归档 - 酥酥的温柔乡

发布于 2025-02-15

250 热度无~ 技术交流

摘要

0. 引言本篇讲讲deepseek在MoE（Mixture-of-Experts）上的演进过程。DeepSeek是MoE稀疏模型 …

发布于 2025-02-15

214 热度无~ 技术交流

摘要

0.引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学 …

发布于 2025-02-15

224 热度无~ 技术交流

摘要

deepseek最近比较出圈，本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

发布于 2025-02-15

198 热度无~ 技术交流

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

245 热度无~ 技术交流

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

发布于 2025-02-15

266 热度无~ 技术交流

摘要

0. 引语上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程，训练过程如图1所示图1、P …

发布于 2025-02-15

250 热度无~ 技术交流

摘要

0.OpenRLHF简介本人对PPO一直停留在“理论”和“实践”层面，看过PPO的原理，训过PPO的模型，但一直没有从源码角度 …

梦回温柔乡