技术交流归档 - 第5页共21页

发布于 2025-02-15

201 热度无~ 技术交流

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

摘要

最近 Reasoning Model（推理模型）异常火爆，Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1， …

发布于 2025-02-15

248 热度无~ 技术交流

OpenRLHF源码解读：3.PPO模型训练过程

摘要

已经用了两篇文章讲解了PPO的源码解读：训练整体过程经验数据采集过程最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

发布于 2025-02-15

270 热度无~ 技术交流

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

摘要

0. 引语上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程，训练过程如图1所示图1、P …

发布于 2025-02-15

253 热度无~ 技术交流

OpenRLHF源码解读：1.理解PPO单机训练

摘要

0.OpenRLHF简介本人对PPO一直停留在“理论”和“实践”层面，看过PPO的原理，训过PPO的模型，但一直没有从源码角度 …

发布于 2025-01-04

281 热度无~ 技术交流

什么是Agent？

摘要

省流，可以直接看图片（在底部），还是比较直观的。最近老是听说AI Agent，仿佛是一条万能的智慧流水线，能直接提供产品和结果（ …

发布于 2024-12-28

188 热度无~ 技术交流

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

摘要

发布于 2024-12-18

222 热度无~ 技术交流

RAG 架构图解：从基础到高级的7种模式

摘要

「RAG 技术通过在 AI 生成过程中引入外部知识检索，从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构，让 …

发布于 2024-12-11

182 热度无~ 技术交流

让预训练 Transformer 生成更长的文本/图像：位置编码长度外推技术

摘要

—文章来源周弈帆的博客

发布于 2024-12-10

156 热度无~ 技术交流

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

摘要

—文章来源周弈帆的博客

发布于 2024-12-09

150 热度无~ 技术交流

论文速览 | Diffusion Forcing：给视频扩散模型的每一帧添加不同强度的噪声

摘要

—文章来自于周弈帆的博客

梦回温柔乡

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

OpenRLHF源码解读：3.PPO模型训练过程

OpenRLHF源码解读：2.PPO训练Experience数据采样过程

OpenRLHF源码解读：1.理解PPO单机训练

什么是Agent？

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

RAG 架构图解：从基础到高级的7种模式

让预训练 Transformer 生成更长的文本/图像：位置编码长度外推技术

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

论文速览 | Diffusion Forcing：给视频扩散模型的每一帧添加不同强度的噪声