发布于 7 小时前
摘要
莫贪几两钱 误了月儿圆
科学技术是第一生产力
君子性非异也善假于物也
文字是沉默者的翅膀
网上有一种流行说法,当一个人想要改变生活的时候,往往会从“重启人生三件套”开始:健身、读书、学外语。 还有个新火的方法,就是把小时 …
在上篇博文中,我分享了近期较火的 JiT 论文,它从理论和实验上证明了:像素空间 DiT 难训练的原因是 patch size 太 …
近期何恺明团队的论文提出了一种叫做 Just image Transformers (JiT) 新式 DiT (Diffusion …
刷社交平台本该是件轻松的事:睡前浏览一会儿,看看别人种草什么好物,顺便了解一下当下流行的生活方式。可不知从什么时候起,我竟把自己活 …
一些Wan2.2的光影集合Comfy-Org/Wan_2.2_ComfyUI_Repackaged. KJ与量化模型集合Qiu77 …
人们一直以为,大模型的隐藏状态是抽象的“语义压缩”。但这篇论文发现,Transformer 并没有丢掉任何输入信息——它能凭隐藏状 …
这看起来是一件很小的事。一些年轻人,出于一种很朴素的冲动,想要为保洁员争取一间休息室。有些人成功了,有些人暂时还没有。TA们都很清 …
在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …
本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一 …