WeChat QR Code

预训练数据太差怎么办？Bengio团队引入显式贝叶斯，无梯度实现In-Context RL

酥酥发布于 2026-01-13 146 次阅读

在 In-Context RL 的研究热潮中，往往存在一种惯性思维，认为只要把 Transformer 做大，把上下文窗口拉长，模型就能像 AD (Algorithm Distillation) 或 DPT (Decision-Pretrained Transformer) 那样“顿悟”出最优策略。

然而实验结果表明，现有的 In-Context RL 方法存在显著局限。它们本质上更接近于条件行为克隆。

如果你喂给模型的是专家数据，它能模仿得很好。但如果上下文里充斥着次优甚至随机的轨迹（这在实际应用中才是常态），模型往往会拟合这些次优行为，从而继承了策略偏差，难以超越演示者的水平。

近日，由 Yoshua Bengio 领衔的 Mila 实验室团队发布了一项新工作 SPICE，这项工作并没有在模型参数量上死磕，而是将深度集成 (Deep Ensemble)、贝叶斯推断与 Transformer 进行了优雅的结合。

SPICE 的核心洞察在于，不要把预训练模型仅仅当作一个动作预测器，而应将其视为一个提供“价值先验”的工具。

在测试时（Test-time），通过显式的贝叶斯公式将这个先验与上下文证据融合，利用 UCB（置信上界）算法进行决策。

即便是在预训练数据质量极差的情况下，SPICE 依然在理论上被证明具有对数级遗憾界 (Logarithmic Regret)，并在实验中展现出显著优于 DPT 等基线模型的性能。

论文标题：

In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior

论文链接：

https://arxiv.org/pdf/2601.03015

01

当In-Context RL遇到“烂数据”

这带来了一个棘手的问题——行为策略偏差 (Behaviour-Policy Bias)。

如果预训练数据的生成策略是次优的，或者带有很强的噪声，基于 MLE（最大似然估计）训练出来的模型就会继承这种偏差。

在推理阶段，如果 Context 里的历史数据也是次优的，模型很难通过自身的归纳偏置去推断出最优解，通过简单的 Attention 机制很难无中生有地产生探索（Exploration）行为。

要想在 Test-time 实现真正的强化学习（即能够探索并改进策略），我们需要两个关键要素，而这正是现有 Transformer 架构所缺失的：

1. 对 Q 值的显式估计：不仅仅是预测动作概率；

2. 不确定性量化：知道自己在哪里不知道，从而驱动探索。

02

方法论：先验、证据与融合

SPICE 的全称是 Shaping Policies In-Context with Ensemble prior。它的架构并不复杂，核心在于如何优雅地处理预训练知识和当前上下文之间的关系。

SPICE 的工作流可以拆解为三个步骤：

1. 训练阶段：学习价值先验

03

04

实验结果：显著优于DPT

为了验证“烂数据”下的适应能力，作者在 Bandits 和 Darkroom（2D 导航）环境中设计了非常苛刻的实验条件。

特别是在 Darkroom 实验中，预训练数据的标签采用 “Weak-last” 设定，即标签不是最优动作，而是随机策略轨迹的最后一步动作。这基本上就是噪音极大的次优数据。

1. Bandit实验：拒绝线性Regret

从上图可以看出，在 Online 设定下，SPICE 取得了所有学习型方法中最低的累积遗憾（Cumulative Regret），并紧密跟随经典 UCB 算法的表现。

相比之下，DPT 的最终遗憾值比 SPICE 高出两个数量级，这表明 DPT 未能从微弱的日志数据中适应，而 SPICE 真正实现了 In-Context 的策略改进。

2. 鲁棒性：无惧噪声

上图结果表明，随着测试环境奖励噪声的增加，SPICE、Thompson Sampling 和 UCB 的表现仅发生微小的绝对变化，保持了良好的稳健性。

反观 DPT，其最终遗憾值始终居高不下，且对噪声变化几乎不敏感，进一步印证了其在次优数据训练下的适应性缺陷。

3. MDP实验：从零到一的质变

在 Darkroom 这种涉及序列决策的任务中，实验结果显示 SPICE 能够迅速适应环境并获得高回报，其遗憾曲线在短暂的热身（Warm-up）后迅速趋于平缓。

作为对比，DPT 和 AD-BC 在这种弱监督设定下表现出近乎线性的遗憾增长，且回报几乎为零。

这说明缺乏不确定性量化的方法在面临“烂数据”时，难以跳出模仿次优行为的陷阱。

05

结语

SPICE 这篇论文并没有盲目地堆砌 Transformer 的参数，而是回归了强化学习的本质——价值估计与不确定性量化。

它通过引入 Deep Ensemble 和贝叶斯融合，巧妙地解决了 In-Context RL 中的两个核心难题：

1. 如何利用次优数据？把它当先验，而不是当真理。

2. 如何实现测试时探索？用后验不确定性驱动 UCB，而不是简单模仿。

Algorithm 1 的伪代码也非常简洁，非常适合作为后续研究的 Baseline。

当然，SPICE 也有其局限性。目前它依赖于 Kernel 函数来衡量状态相似度，在高维或部分可观测（POMDP）环境中，设计一个好的 Kernel 依然具有挑战性。

–文章来源<PaperWeekly>

上一篇文章

你那些微小的改变，正让自己越来越好

下一篇文章

NeurIPS 2025 oral：DiT魔改指南

查看评论 - 无~

Comments NOTHING

暂无评论

取消回复

To trace the bright moonlight

嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	Tieba	(=・ω・=)	更多

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

私密评论邮件通知保留个人信息