发布于 2026-01-13
摘要
论文标题:Exploring Diffusion Transformer Designs via Grafting 论文地址:ht …
计算机相关技术分享
论文标题:Exploring Diffusion Transformer Designs via Grafting 论文地址:ht …
在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长,模 …
作为 AI 领域顶会中的顶会,NeurIPS 2025 的 Best Paper 历来是引领行业方向的 “风向标”。今年这篇题为《 …
过去一年来, o1和DeepSeek-R1 的神话,结合媒体的宣传,让 RL 特别像武侠小说里的绝世功法:给个 reward,堆上 …
在上篇博文中,我分享了近期较火的 JiT 论文,它从理论和实验上证明了:像素空间 DiT 难训练的原因是 patch size 太 …
近期何恺明团队的论文提出了一种叫做 Just image Transformers (JiT) 新式 DiT (Diffusion …
一些Wan2.2的光影集合Comfy-Org/Wan_2.2_ComfyUI_Repackaged. KJ与量化模型集合Qiu77 …
人们一直以为,大模型的隐藏状态是抽象的“语义压缩”。但这篇论文发现,Transformer 并没有丢掉任何输入信息——它能凭隐藏状 …
在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …
本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一 …