发布于 2025-02-15
摘要
0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …
莫贪几两钱 误了月儿圆
科学技术是第一生产力
君子生非异也善假于物也
文字是沉默者的翅膀
0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …
0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …
省流,可以直接看图片(在底部),还是比较直观的。 最近老是听说AI Agent,仿佛是一条万能的智慧流水线,能直接提供产品和结果( …
初中的时候看到一句话“你必须非常努力,才能看起来毫不费力”。我深受激励,白天掐着大腿根,吞下哈欠,聚精会神地听物理定律;夜晚熄灯后 …
一路历经磨难,一路咬牙坚持,跌跌撞撞却也迎难而上。从白天到黑夜,从酷暑到寒冬,你始终背起行囊日夜兼程地追赶风月。有过困苦挫折,也会 …
「RAG 技术通过在 AI 生成过程中引入外部知识检索,从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构,让 …
栈的定义与简单实现 难度:基础 自动提示:开启 完成度 0%
—文章来源周弈帆的博客
—文章来源周弈帆的博客