发布于 6 天前
摘要
DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss? 一、DPO是什么? DPO(Direct …
计算机相关技术分享
DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss? 一、DPO是什么? DPO(Direct …
一、标准的Classifier-Free Guidance是怎么做的? (一)Classifier-Free Guidance在做 …
Vision Transformer中的Attention热力图可视化原理是什么? 一、ViT的注意力可视化在做一件什么事情? 实 …
LoRA在图像生成中有哪些优秀的变式工作? 一、回归定义:LoRA是什么? LoRA(Low-Rank Adaptation)是一 …
Diffusion和Autoregressive做生成哪个上限更高? 先说结论:没有绝对的上限最高,这里都要结合具体的语境来进行讨 …
Training-free的多模态大模型研究方向目前有哪些比较适合学生? 一、前言 开始之前,说说自己对training-f …
如何看待「多模态大模型的幻觉缓解」这一方向? 一、MLLM Hallucination在做一件什么事情? Hallucinatio …
扩散模型预测噪声、x0、velocity的不同训练目标之间有什么区别和侧重? 一、Diffusers中的代码实现是怎样的? 在Di …
论文标题:Exploring Diffusion Transformer Designs via Grafting 论文地址:ht …
在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长,模 …