Diffusion和Autoregressive做生成哪个上限更高?
先说结论:没有绝对的上限最高,这里都要结合具体的语境来进行讨论。
这里面我们去说image generation和text generation,二者之间的机制、性能上界、评价标准都是相差非常多的。
Diffusion与Autoregressive(AR)本质上代表了两种不同的数据建模视角:
AR是基于严格因果链的序列生成,顾名思义,是一种自回归式,逐个元素生成的方式完成整个结果的输出过程的;
而Diffusion恰恰相反,是一种非自回归式(non-AR)的生成方式,也就是生成下一个元素时,依旧是可以对上一个元素进行修改的,最后一并将所有的元素输出的形式。
一、Text Generation中的AR和Diffusion
对于text generation的下游任务来说,目前看来还是LLM(AR范式) 上限更高。
文本的核心逻辑在于因果依赖。这和人类的思考和表达过程是完全契合的——即前面的词决定了后面的词要怎么说,包括思考的过程也一样,前面的上文内容,是能够推理出下文内容的,二者之间存在因果关系。
而LLM这种next-token prediction的训练目标,就完美契合了文本的生成逻辑。
有的朋友可能会问,2025年风很大的DLLM(Diffusion LLM),故事逻辑也非常自洽,LLM的霸主地位难道还跟之前一样稳定吗?我猜你肯定想说:
non-AR生成规避了AR范式的error propagation:传统AR模型在生成长文本时,一旦前序token出错,后续生成不得不基于错误的context继续推理,导致误差累积的问题。
而DLLM是全局并行的迭代优化,理论上具有更强的自我纠错能力。DLLM试图打破AR必须串行生成的计算瓶颈,通过并行的去噪过程来提升生成效率。
但是,就我身边做DLLM相关的朋友来看,DLLM想要达到生态完美的程度目前还有较大的距离,主要体现在:
思考顺序无法和现在LLM的CoT生态相匹配: Chain-of-Thought在AR范式中已经非常成熟,甚至是现在LLM解决代码、数理等复杂问题的关键技术。AR范式天然符合这一推理过程,也就有了现在「简单问题短思考,复杂问题长思考,思考时间越长,response的质量也就越高」的观察;
而Diffusion的non-AR过程没办法决定思考的长短,也就决定了很多LLM中有用的结论无法直接套用在DLLM上。变长生成的硬伤: 文本长度是高度不确定的。
AR模型可以自然地生成EOS来终止生成的过程,这一点很自然,就像我们人感觉这段话说完了的时候,就会停止说话一样。
而Diffusion模型通常需要预设固定的sequence length或进行复杂的padding处理,这在灵活性上欠佳,这一点也和上一点CoT中的观察是吻合的,即无法通过更长的思考,来换取复杂任务的处理能力。计算资源的置换问题: 虽然DLLM宣称并行生成,但在高精度要求下,往往需要更多的diffusion steps,其实际推理延迟往往并不比经过KV cache优化的AR模型低。
且KV Cache等LLM生态中成熟的技术无法直接套用到DLLM上,仍然面临着生态上不适配的问题。
因此,LLM「简单问题短思考,复杂问题长思考」的test-time compute scaling能力,是目前DLLM难以望其项背的,也是后面研究的重点。
二、Image Generation中的AR和Diffusion
对于image generation来说,情况则完全不同。
图像的本质是连续的二维信号,具有极强的空间局部相关性,且没有严格的自然顺序。
1. 传统的AR图像生成需要将图像quantize成离散的visual tokens。这一过程本身就是一个有损压缩,不可避免地丢失了高频细节。
而且,强行将二维图像flatten成一维序列进行raster scan生成,破坏了图像原本的空间结构,导致模型需要花费大量参数去学习「本来相邻但在序列中相隔很远」的像素关系。2. Diffusion Model原生就支持连续空间(或者经过相对低损压缩的latent space)上的建模,更大程度保留了图像的连续性和拓扑结构。
LDM的成功证明了,通过在perceptual compression空间进行扩散,可以实现生成质量与计算效率的最佳平衡。3. 值得关注的是,最近的VAR(visual autoregressive) 工作为AR范式在图像生成领域中提供了一个独特的地位。
VAR的核心创新在于打破了raster scan的序列顺序,采用了next-scale prediction的范式。它不再是「从左上角生成到右下角」,而是「从低分辨率生成到高分辨率」。
这种coarse-to-fine的生成逻辑,更加符合人类绘画和视觉认知的过程。
目前看来,VAR是相比于传统AR范式最具潜力的图像建模方式。它不仅在scaling laws上表现出了优异的性质,而且天然适配unified generation and understanding的框架——即理解和生成都在同一个Transformer中通过next-token prediction完成,这一点在字节的最新工作NextFlow中已经得到了采用.
—文章来源Alonze
Comments NOTHING