文章 – 第 7 页 – 酥酥的温柔乡

发布于 2025-02-15

217 热度无~ 技术交流

deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生

摘要

0.引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学 …

发布于 2025-02-15

227 热度无~ 技术交流

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

摘要

deepseek最近比较出圈，本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

发布于 2025-02-15

201 热度无~ 技术交流

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

248 热度无~ 技术交流

OpenRLHF源码解读：3.PPO模型训练过程

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

发布于 2025-02-15

270 热度无~ 技术交流

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

摘要

0. 引语上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程，训练过程如图1所示图1、P …

发布于 2025-02-15

253 热度无~ 技术交流

OpenRLHF源码解读：1.理解PPO单机训练

摘要

0.OpenRLHF简介本人对PPO一直停留在“理论”和“实践”层面，看过PPO的原理，训过PPO的模型，但一直没有从源码角度 …

发布于 2025-01-04

281 热度无~ 技术交流

什么是Agent？

摘要

省流，可以直接看图片（在底部），还是比较直观的。最近老是听说AI Agent，仿佛是一条万能的智慧流水线，能直接提供产品和结果（ …

发布于 2024-12-28

188 热度无~ 技术交流

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

摘要

发布于 2024-12-23

244 热度无~ 文字控

我害怕被人知道自己很努力

摘要

初中的时候看到一句话“你必须非常努力，才能看起来毫不费力”。我深受激励，白天掐着大腿根，吞下哈欠，聚精会神地听物理定律；夜晚熄灯后 …

发布于 2024-12-21

222 热度无~ 文字控

考研前一晚，你在想什么

摘要

一路历经磨难，一路咬牙坚持，跌跌撞撞却也迎难而上。从白天到黑夜，从酷暑到寒冬，你始终背起行囊日夜兼程地追赶风月。有过困苦挫折，也会 …

梦回温柔乡

deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

OpenRLHF源码解读：3.PPO模型训练过程

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

OpenRLHF源码解读：1.理解PPO单机训练

什么是Agent？

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

我害怕被人知道自己很努力

考研前一晚，你在想什么