WeChat QR Code

Display

如振落叶 160,119 次

映雪囊萤 753,465 字

流光迁徙 1,634 天

上次在线 2 天前

所有文章都支持转载，标明出处即可，合作可联系站长。

技术交流

技术交流

科学技术是第一生产力

工具分享

工具分享

君子生非异也善假于物也

文字控

文字控

文字是沉默者的翅膀

Article

发布于 2025-11-03

123 热度无~ 技术交流

邪修的Huggingface视频生成权重

摘要

一些Wan2.2的光影集合Comfy-Org/Wan_2.2_ComfyUI_Repackaged. KJ与量化模型集合Qiu77 …

发布于 2025-10-30

84 热度无~ 技术交流

你的输入，LLM一字未忘：Transformer被证明“几乎处处可逆”

摘要

人们一直以为，大模型的隐藏状态是抽象的“语义压缩”。但这篇论文发现，Transformer 并没有丢掉任何输入信息——它能凭隐藏状 …

发布于 2025-10-23

125 热度无~ 文字控

好在，还有人关心保洁员在哪儿休息

摘要

这看起来是一件很小的事。一些年轻人，出于一种很朴素的冲动，想要为保洁员争取一间休息室。有些人成功了，有些人暂时还没有。TA们都很清 …

发布于 2025-10-20

122 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

76 热度无~ 技术交流

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

摘要

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一 …

发布于 2025-10-20

112 热度无~ 技术交流

PolaLinearAtt如何平衡性能与效率？

摘要

创新点提出了极性感知线性注意力 (Polarity-aware Linear Attention)，显式建模 query-ke …

发布于 2025-10-04

108 热度无~ 文字控

珍·古道尔的传奇一生

摘要

有人说，她是课本上的传奇，因为她的名字出现在我们的科学、生物、英语教科书上；有人说，她颠覆了关于“人类”的定义。也因此，她被称为 …

发布于 2025-09-19

118 热度无~ 技术交流

线性注意力简史：从模仿、创新到反哺

摘要

在中文圈，笔者应该算是比较早关注线性 Attention 的了，在 2020 年写首篇相关文章线性Attention的探索：Att …

发布于 2025-09-19

110 热度无~ 技术交流

线性Attention的探索：Attention必须有个Softmax吗？

摘要

— 文章来源 Paperweekly

发布于 2025-09-02

142 热度无~ 技术交流

FlashAttention

摘要

以 Attention 计算为核心的 Transformer 模型是当今深度学习的基石。虽然 Attention 计算十分有效，但 …

更早的文章