如何看待「多模态大模型的幻觉缓解」这一方向？

一、MLLM Hallucination在做一件什么事情？

Hallucination在MLLM的语境下，本质是跨模态语义对齐的失效。
简单来说，就是模型「看图说话」时，LLM习惯性地依赖自身的language priors（比方说「A horse」的后面大概率是跟上「on the grassland」而并非「on the planet Mars」），而忽视了visual embedding中的信息，所以导致了「睁眼说瞎话」的现象。

这个方向的核心目标就是解决cross-modal consistency。
具体来说，就是要让模型生成的每一个token，都要么有视觉证据支撑，要么符合逻辑推理，而不是单纯基于LLM的language prior进行脑补。

目前的幻觉主要分为三类：

1. Object hallucination（物体幻觉）：图里没猫，非说有猫。这是最基础、研究最多的。
2. Attribute hallucination（属性幻觉）：图里是红苹果，非说是绿苹果。
3. Relation hallucination（关系幻觉）：猫在桌子上，非说猫在桌子下。这是比较高阶的幻觉。

在具体的做法上，目前业界主要分为training-free和training-based两大流派。

二、现有方法是怎么做的？

（一）Training-Free方法

Training-free是目前研究最为广泛的MLLM方向之一，其无需训练的方式能够带来极低的计算成本，关于training-free相关工作的推荐，可以参考我的往期相关回答。

最经典的做法是contrastive decoding。比如VCD（Visual Contrastive Decoding），

类似的还有ICD（Instruction Contrastive Decoding），它是构建一个误导性的instruction，然后再对分布进行重新调整，原理异曲同工。

（二）Training-Based方法

Training-based则是从根源上解决问题，主要集中在数据构造和RLHF对齐上。

比如HACL，它在微调阶段引入对比学习，把「包含幻觉的描述」作为hard negative，强制拉大正负样本在表示空间的距离。

还有RLHF的变体，专门收集「幻觉 vs. 真实」的preference data，通过Factually Augmented RLHF来惩罚「包含幻觉内容」的输出。

三、MLLM Hallucination的演进脉络

从时间维度来看，这个方向的演进非常有意思：
2023以前：
早期大家都在惊叹MLLM的生成能力，但后来逐渐开始发现它老胡说八道。
POPE（Polling-based Object Probing Evaluation） 是这个阶段的里程碑，它把开放式生成变成了yes or no的判别任务，第一次量化了幻觉。

2023～2024年：
重新训练一个幻觉率较低的LLM往往代价高昂，于是VCD、ICD这种training-free的方法大行其道。
同时，专门针对幻觉的数据集（如AMBER、HallusionBench）开始出现，研究者逐渐开始关注MLLM hallucination的问题。

2024年至今：
现在的趋势是精细化。
比如HDPO明确把幻觉归因拆解为「视觉能力不足」、「长文本遗忘」、「多模态冲突」三类，并针对性地构造DPO数据。

同时，研究界开始反思评估的有效性。THRONE指出type I（开放生成）和type II（封闭问答）的幻觉可能是不相关的。

四、结语 & 一些思考

另外一个个人比较有意思的思考在于：
除了强行压制幻觉，让模型「知道自己不知道」这件事情是否也很重要？
这一点其实在之前OpenAI的technical report 《Why Large Language Models Hallucinate?》中其实已经提到了一个LLM的「硬伤」——就是不管在什么情况下，LLM倾向于去输出一个确定性的答案，而并不会、甚至无法判断自己是否应该说「我不知道」，这样的能力本质上是更高阶的「元认知」能力——对于人类来说，这是为什么我们更有智慧的关键。
当视觉证据不足时，模型应该输出「我不确定」或者「图片看不清」，而不是硬编一个答案，从MLLM hallucination的角度来看也是合理的。
或许等到AGI生态逐渐成熟，这会成为后续一个有意思的点。

—文章来源 Alonze