python归档 - 酥酥的温柔乡

发布于 2025-10-20

120 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

110 热度无~ 技术交流

PolaLinearAtt如何平衡性能与效率？

摘要

创新点提出了极性感知线性注意力 (Polarity-aware Linear Attention)，显式建模 query-ke …

发布于 2025-02-19

291 热度无~ 技术交流

从Policy Gradient到REINFORCE++

摘要

强化学习的核心目标是通过不断调整策略（即根据当前状态选择动作的规则），使智能体表现得更好。在强化学习中，有几个关键元素至关重要：首 …

发布于 2024-12-11

235 热度无~ 文字控

Demo Page

摘要

栈的定义与简单实现难度：基础自动提示：开启完成度 0%

发布于 2024-12-11

179 热度无~ 技术交流

让预训练 Transformer 生成更长的文本/图像：位置编码长度外推技术

摘要

—文章来源周弈帆的博客

发布于 2024-12-10

154 热度无~ 技术交流

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

摘要

—文章来源周弈帆的博客

发布于 2024-11-20

267 热度无~ 技术交流

Stable Diffusion 3 论文及源码概览

摘要

—文章来源 Stable Diffusion 3 论文及源码概览作者:周弈帆

发布于 2024-11-20

240 热度无~ 技术交流

Stable Video Diffusion 源码解读 (Diffusers 版)

摘要

— 文章来源 Stable Video Diffusion 源码解读 (Diffusers 版) 作者:周弈帆

发布于 2024-11-20

241 热度无~ 技术交流

CVPR 2024 | DiffMorpher：实现两张图像间的平滑变形

摘要

—文章来源 CVPR 2024 | DiffMorpher：实现两张图像间的平滑变形作者:周弈帆

发布于 2024-11-20

162 热度无~ 技术交流

Stable Diffusion 中的自注意力替换技术与 Diffusers 实现

摘要

—文章来源 Stable Diffusion 中的自注意力替换技术与 Diffusers 实现作者:周弈帆

梦回温柔乡

推理时强化学习TTRL

PolaLinearAtt如何平衡性能与效率？

从Policy Gradient到REINFORCE++

Demo Page

让预训练 Transformer 生成更长的文本/图像：位置编码长度外推技术

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

Stable Diffusion 3 论文及源码概览

Stable Video Diffusion 源码解读 (Diffusers 版)

CVPR 2024 | DiffMorpher：实现两张图像间的平滑变形

Stable Diffusion 中的自注意力替换技术与 Diffusers 实现