技术交流归档 - 第2页共21页

发布于 2025-12-26

86 热度无~ 技术交流

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

摘要

作为 AI 领域顶会中的顶会，NeurIPS 2025 的 Best Paper 历来是引领行业方向的 “风向标”。今年这篇题为《 …

发布于 2025-12-16

80 热度无~ 技术交流

给RL降降温！RL 真的能拓展推理能力边界？｜NeurIPS 2025 Best Paper

摘要

过去一年来， o1和DeepSeek-R1 的神话，结合媒体的宣传，让 RL 特别像武侠小说里的绝世功法：给个 reward，堆上 …

发布于 2025-12-05

109 热度无~ 技术交流

给 JiT 加上像素级解码器：三篇近期 Pixel DiT 论文对比解读

摘要

在上篇博文中，我分享了近期较火的 JiT 论文，它从理论和实验上证明了：像素空间 DiT 难训练的原因是 patch size 太 …

发布于 2025-12-04

109 热度无~ 技术交流

何恺明团队新作 JiT 解读与复现：解决大 patch DiT 难以训练的问题

摘要

近期何恺明团队的论文提出了一种叫做 Just image Transformers (JiT) 新式 DiT (Diffusion …

发布于 2025-11-03

123 热度无~ 技术交流

邪修的Huggingface视频生成权重

摘要

一些Wan2.2的光影集合Comfy-Org/Wan_2.2_ComfyUI_Repackaged. KJ与量化模型集合Qiu77 …

发布于 2025-10-30

84 热度无~ 技术交流

你的输入，LLM一字未忘：Transformer被证明“几乎处处可逆”

摘要

人们一直以为，大模型的隐藏状态是抽象的“语义压缩”。但这篇论文发现，Transformer 并没有丢掉任何输入信息——它能凭隐藏状 …

发布于 2025-10-20

122 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

76 热度无~ 技术交流

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

摘要

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一 …

发布于 2025-10-20

110 热度无~ 技术交流

PolaLinearAtt如何平衡性能与效率？

摘要

创新点提出了极性感知线性注意力 (Polarity-aware Linear Attention)，显式建模 query-ke …

发布于 2025-09-19

116 热度无~ 技术交流

线性注意力简史：从模仿、创新到反哺

摘要

在中文圈，笔者应该算是比较早关注线性 Attention 的了，在 2020 年写首篇相关文章线性Attention的探索：Att …

梦回温柔乡

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

给RL降降温！RL 真的能拓展推理能力边界？｜NeurIPS 2025 Best Paper

给 JiT 加上像素级解码器：三篇近期 Pixel DiT 论文对比解读

何恺明团队新作 JiT 解读与复现：解决大 patch DiT 难以训练的问题

邪修的Huggingface视频生成权重

你的输入，LLM一字未忘：Transformer被证明“几乎处处可逆”

推理时强化学习TTRL

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

PolaLinearAtt如何平衡性能与效率？

线性注意力简史：从模仿、创新到反哺