Diffusion和Autoregressive做生成哪个上限更高？

先说结论：没有绝对的上限最高，这里都要结合具体的语境来进行讨论。
这里面我们去说image generation和text generation，二者之间的机制、性能上界、评价标准都是相差非常多的。

Diffusion与Autoregressive（AR）本质上代表了两种不同的数据建模视角：
AR是基于严格因果链的序列生成，顾名思义，是一种自回归式，逐个元素生成的方式完成整个结果的输出过程的；
而Diffusion恰恰相反，是一种非自回归式（non-AR）的生成方式，也就是生成下一个元素时，依旧是可以对上一个元素进行修改的，最后一并将所有的元素输出的形式。

一、Text Generation中的AR和Diffusion

对于text generation的下游任务来说，目前看来还是LLM（AR范式） 上限更高。

文本的核心逻辑在于因果依赖。这和人类的思考和表达过程是完全契合的——即前面的词决定了后面的词要怎么说，包括思考的过程也一样，前面的上文内容，是能够推理出下文内容的，二者之间存在因果关系。
而LLM这种next-token prediction的训练目标，就完美契合了文本的生成逻辑。

有的朋友可能会问，2025年风很大的DLLM（Diffusion LLM），故事逻辑也非常自洽，LLM的霸主地位难道还跟之前一样稳定吗？我猜你肯定想说：

non-AR生成规避了AR范式的error propagation：传统AR模型在生成长文本时，一旦前序token出错，后续生成不得不基于错误的context继续推理，导致误差累积的问题。
而DLLM是全局并行的迭代优化，理论上具有更强的自我纠错能力。
DLLM试图打破AR必须串行生成的计算瓶颈，通过并行的去噪过程来提升生成效率。

但是，就我身边做DLLM相关的朋友来看，DLLM想要达到生态完美的程度目前还有较大的距离，主要体现在：

思考顺序无法和现在LLM的CoT生态相匹配： Chain-of-Thought在AR范式中已经非常成熟，甚至是现在LLM解决代码、数理等复杂问题的关键技术。AR范式天然符合这一推理过程，也就有了现在「简单问题短思考，复杂问题长思考，思考时间越长，response的质量也就越高」的观察；
而Diffusion的non-AR过程没办法决定思考的长短，也就决定了很多LLM中有用的结论无法直接套用在DLLM上。
变长生成的硬伤： 文本长度是高度不确定的。
AR模型可以自然地生成EOS来终止生成的过程，这一点很自然，就像我们人感觉这段话说完了的时候，就会停止说话一样。
而Diffusion模型通常需要预设固定的sequence length或进行复杂的padding处理，这在灵活性上欠佳，这一点也和上一点CoT中的观察是吻合的，即无法通过更长的思考，来换取复杂任务的处理能力。
计算资源的置换问题： 虽然DLLM宣称并行生成，但在高精度要求下，往往需要更多的diffusion steps，其实际推理延迟往往并不比经过KV cache优化的AR模型低。
且KV Cache等LLM生态中成熟的技术无法直接套用到DLLM上，仍然面临着生态上不适配的问题。

因此，LLM「简单问题短思考，复杂问题长思考」的test-time compute scaling能力，是目前DLLM难以望其项背的，也是后面研究的重点。

二、Image Generation中的AR和Diffusion

对于image generation来说，情况则完全不同。

图像的本质是连续的二维信号，具有极强的空间局部相关性，且没有严格的自然顺序。

1. 传统的AR图像生成需要将图像quantize成离散的visual tokens。这一过程本身就是一个有损压缩，不可避免地丢失了高频细节。
而且，强行将二维图像flatten成一维序列进行raster scan生成，破坏了图像原本的空间结构，导致模型需要花费大量参数去学习「本来相邻但在序列中相隔很远」的像素关系。
2. Diffusion Model原生就支持连续空间（或者经过相对低损压缩的latent space）上的建模，更大程度保留了图像的连续性和拓扑结构。
LDM的成功证明了，通过在perceptual compression空间进行扩散，可以实现生成质量与计算效率的最佳平衡。
3. 值得关注的是，最近的VAR（visual autoregressive） 工作为AR范式在图像生成领域中提供了一个独特的地位。
VAR的核心创新在于打破了raster scan的序列顺序，采用了next-scale prediction的范式。它不再是「从左上角生成到右下角」，而是「从低分辨率生成到高分辨率」。
这种coarse-to-fine的生成逻辑，更加符合人类绘画和视觉认知的过程。

目前看来，VAR是相比于传统AR范式最具潜力的图像建模方式。它不仅在scaling laws上表现出了优异的性质，而且天然适配unified generation and understanding的框架——即理解和生成都在同一个Transformer中通过next-token prediction完成，这一点在字节的最新工作NextFlow中已经得到了采用.

—文章来源Alonze