发布于 2025-02-15
摘要
最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …
计算机相关技术分享
最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …
已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …
0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …
0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …
省流,可以直接看图片(在底部),还是比较直观的。 最近老是听说AI Agent,仿佛是一条万能的智慧流水线,能直接提供产品和结果( …
「RAG 技术通过在 AI 生成过程中引入外部知识检索,从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构,让 …
—文章来源周弈帆的博客
—文章来源周弈帆的博客
—文章来自于周弈帆的博客