WeChat QR Code

Display

如振落叶 178,962 次

映雪囊萤 761,618 字

流光迁徙 1,743 天

上次在线 1 天前

所有文章都支持转载，标明出处即可，合作可联系站长。

技术交流

技术交流

科学技术是第一生产力

工具分享

工具分享

君子生非异也善假于物也

文字控

文字控

文字是沉默者的翅膀

Article

发布于 2025-02-19

364 热度无~ 技术交流

从Policy Gradient到REINFORCE++

摘要

强化学习的核心目标是通过不断调整策略（即根据当前状态选择动作的规则），使智能体表现得更好。在强化学习中，有几个关键元素至关重要：首 …

发布于 2025-02-19

210 热度无~ 技术交流

统计学基础 | 因果推断之双网络深度因果模型

摘要

双网络深度因果模型（Doubly Robust Deep Causal Models, DR-DCM）是一种用于因果推断的机器学 …

发布于 2025-02-17

212 热度无~ 技术交流

统计学基础 | 因果推断之反事实生成对抗网络

摘要

反事实生成对抗网络（Counterfactual GANs, CF-GANs）是统计学因果推断中的一种深度学习方法，主要用于模 …

发布于 2025-02-17

259 热度无~ 技术交流

统计学基础 | 因果推断之深度倾向得分模型

摘要

深度倾向得分模型（Deep Propensity Score Models, DPSM）是一种基于深度学习的方法，用于估计倾向得分 …

发布于 2025-02-17

285 热度无~ 文字控

给父亲200次“公主抱”

摘要

01 大学毕业后在南京工作两年后，我辞掉工作，退掉租的房子，准备回家考研。那时，母亲要上班，平时不在家，想到要长期和父亲共处一室， …

发布于 2025-02-15

336 热度无~ 技术交流

deepseek技术解读(3)-MoE的演进之路

摘要

0. 引言本篇讲讲deepseek在MoE（Mixture-of-Experts）上的演进过程。DeepSeek是MoE稀疏模型 …

发布于 2025-02-15

294 热度无~ 技术交流

deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生

摘要

0.引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学 …

发布于 2025-02-15

297 热度无~ 技术交流

deepseek技术解读(1)-彻底理解MLA（Multi-Head Latent Attention）

摘要

deepseek最近比较出圈，本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

发布于 2025-02-15

276 热度无~ 技术交流

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

350 热度无~ 技术交流

OpenRLHF源码解读：3.PPO模型训练过程

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

更早的文章