• 工具箱整理
      • MikuTools
      • 刘明野的工具箱
      • 七月辰的工具箱
      • 小影的工具箱
      • Healer的工具箱
      • 奇迹秀工具箱
      • 顾乾坤的实验室
      • 在线工具人
      • 孟坤工具箱
      • 开发工具箱
      • 工具资料箱
      • 超实用工具箱
      • 永恒君的百宝箱
      • 945KM
      • 945软件库
      • 哆啦A梦的神奇口袋
      • 哆啦A梦的神奇口袋目录
      • 爱达杂货铺
    • 实习日记
      • 第一次上课
      • 第一次机房上课
      • 教育实习 3.10 第一次批改作业
      • 实习周记三
      • 实习周记四3.30
      • 实习周记4.8
      • 实习周记六4-14
      • 实习周记八4-27
      • 实习周记七4-21
    • 动手学深度学习
      • 动手学深度学习教材配套网站
      • 动手学深度学习torch版
      • 动手学深度学习tensorflow版
    酥酥的温柔乡
    酥酥的温柔乡
    • 工具箱整理
      • MikuTools
      • 刘明野的工具箱
      • 七月辰的工具箱
      • 小影的工具箱
      • Healer的工具箱
      • 奇迹秀工具箱
      • 顾乾坤的实验室
      • 在线工具人
      • 孟坤工具箱
      • 开发工具箱
      • 工具资料箱
      • 超实用工具箱
      • 永恒君的百宝箱
      • 945KM
      • 945软件库
      • 哆啦A梦的神奇口袋
      • 哆啦A梦的神奇口袋目录
      • 爱达杂货铺
    • 实习日记
      • 第一次上课
      • 第一次机房上课
      • 教育实习 3.10 第一次批改作业
      • 实习周记三
      • 实习周记四3.30
      • 实习周记4.8
      • 实习周记六4-14
      • 实习周记八4-27
      • 实习周记七4-21
    • 动手学深度学习
      • 动手学深度学习教材配套网站
      • 动手学深度学习torch版
      • 动手学深度学习tensorflow版
    搜索
    随机换张背景
    avatar
    登录 注册
    header_user_avatar
    登录

    梦回温柔乡

    疯狂造句中......

    莫贪几两钱 误了月儿圆

  • WeChat QR Code
  • QQ QR Code
  • bilibili
  • cloudmusic
  • github
  • zhihu
  • E-mail
  • 大模型

    post_img
    发布于 2025-02-15
    250 热度 无~ 技术交流

    deepseek技术解读(3)-MoE的演进之路

    摘要

    0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型 …

    post_img
    发布于 2025-02-15
    214 热度 无~ 技术交流

    deepseek技术解读(2)-MTP(Multi-Token Prediction)的前世今生

    摘要

    ​ 0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学 …

    post_img
    发布于 2025-02-15
    224 热度 无~ 技术交流

    deepseek技术解读(1)-彻底理解MLA(Multi-Head Latent Attention)

    摘要

    deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。 …

    post_img
    发布于 2025-02-15
    198 热度 无~ 技术交流

    从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现

    摘要

    最近 Reasoning Model(推理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1, …

    post_img
    发布于 2025-02-15
    245 热度 无~ 技术交流

    OpenRLHF源码解读:3.PPO模型训练过程

    摘要

    已经用了两篇文章讲解了PPO的源码解读: 训练整体过程 经验数据采集过程 最后我们在来看看模型训练过程的一些细节。 1.PPO训练 …

    post_img
    发布于 2025-02-15
    266 热度 无~ 技术交流

    OpenRLHF源码解读:2.PPO训练Experience数据采样过程

    摘要

    0. 引语 上一篇文章中『基于OpenRLHF源码理解PPO单机训练』已经介绍了PPO训练的完整过程,训练过程如图1所示 图1、P …

    post_img
    发布于 2025-02-15
    250 热度 无~ 技术交流

    OpenRLHF源码解读:1.理解PPO单机训练

    摘要

    0.OpenRLHF简介 本人对PPO一直停留在“理论”和“实践”层面, 看过PPO的原理,训过PPO的模型,但一直没有从源码角度 …

    loading_svg

    互联网ICP备案:浙ICP备2021031116号-2

    加载耗时 0.267 秒 | 查询 96 次 | 内存使用 16.68 MB

    Theme Sakurairo by Fuukei

    attention (6) causal (3) css (4) datetime (4) deeplearning (57) deepseek (3) diffusers (3) Diffusion (7) Django (18) excel (7) html (4) JavaScript (2) life (3) LLM (11) middleware (2) numpy (3) orm (4) OS (13) pandas (4) PPO (3) python (112) reinforcement learning (5) RLHF (3) scrapy (12) sklearn (12) Stable Diffusion (4) tableau (4) torch (46) transformer (5) vba (3) yolo (4) 人生 (3) 冬季星空 (5) 夏夜星空 (4) 大模型 (7) 大语言模型 (6) 天文 (35) 强化学习 (8) 思考 (47) 扩散模型 (28) 教育 (7) 教育学 (3) 文字 (4) 爬虫 (6) 生成式人工智能 (8)