发布于 7 天前
摘要
DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss? 一、DPO是什么? DPO(Direct …
莫贪几两钱 误了月儿圆
科学技术是第一生产力
君子生非异也善假于物也
文字是沉默者的翅膀
DPO可否拆分为两个阶段的SFT,一个最小化正样本loss,一个最大化负样本loss? 一、DPO是什么? DPO(Direct …
一、标准的Classifier-Free Guidance是怎么做的? (一)Classifier-Free Guidance在做 …
Vision Transformer中的Attention热力图可视化原理是什么? 一、ViT的注意力可视化在做一件什么事情? 实 …
LoRA在图像生成中有哪些优秀的变式工作? 一、回归定义:LoRA是什么? LoRA(Low-Rank Adaptation)是一 …
Diffusion和Autoregressive做生成哪个上限更高? 先说结论:没有绝对的上限最高,这里都要结合具体的语境来进行讨 …
Training-free的多模态大模型研究方向目前有哪些比较适合学生? 一、前言 开始之前,说说自己对training-f …
如何看待「多模态大模型的幻觉缓解」这一方向? 一、MLLM Hallucination在做一件什么事情? Hallucinatio …
在学校里面待久了,对很多东西没概念,总觉得自己还是学生,即便到了一定年纪,也不觉得需要考虑太多事情,感觉离自己还很遥远,但是回了老 …
“我不必费力解释为什么三十岁还不急着结婚,为什么选择清贫但热爱的学术道路,为什么享受独处胜过热闹聚会,博士身份成了最便捷的解释理由 …
扩散模型预测噪声、x0、velocity的不同训练目标之间有什么区别和侧重? 一、Diffusers中的代码实现是怎样的? 在Di …