LoRA在图像生成中有哪些优秀的变式工作?

酥酥 发布于 2026-03-03 113 次阅读


LoRA在图像生成中有哪些优秀的变式工作?

一、回归定义:LoRA是什么?

LoRALow-Rank Adaptation)是一种参数parameter-efficient fine-tuning技术,想必这个名字大家已经耳熟能详了,不管你是做diffusion model相关的,还是做LLM相关的研究,只要涉及foundation model的fine-tuning,基本上都离不开LoRA。
LoRA的特点顾名思义——它并不改变foundation model用于初始化的pre-trained model weights,而是通过加入一对可训练的低秩矩阵来模拟参数更新,所以名字中有「低秩」两个字。

二、Text-to-Image Generation的LoRA相关工作盘点

事实上在text-to-image generation及其衍生出的子任务中,为了在保有原生text-to-image diffusion model生成能力不被破坏的前提下,实现更精细的任务专精和概念解耦,现有方法中衍生出了一系列基于LoRA的改进设计,代表性工作有DreamBooth、ZipLoRA、B-LoRA和UnZipLoRA等。

DreamBooth LoRA:
这是最基础的专精形式,也是personalized image generation早期和Textual Inversion并存的奠基工作之一。
DreamBooth通过少量(3~5张)特定主体的reference image,微调case-specific的LoRA参数,使原生text-to-image diffusion model具备将特定标识符(如sks dog)绑定到该主体上的能力,从实现主体定制化的生成。
相比全量DreamBooth,LoRA极大地降低了训练成本,实操SD1.x的模型在单张NVIDIA 3090 GPU上也能进行训练;更重要的是,训练出来的模型权重不容易发生catastrophic forgetting现象,从而破坏原生text-to-image diffusion model对于text prompt的遵循能力。

ZipLoRA:
基于DreamBooth对于主体(或风格)的定制能力,ZipLoRA旨在解决多个LoRA合并时的冲突问题。
当我们想同时使用一个「主体LoRA」和一个「风格LoRA」时,同时对于一个text-guided generation的过程进行「主体」和「风格」上的控制时,直接将LoRA相加往往会导致严重的feature entanglement问题——即控制「主体」的同时,往往也会不可避免地影响生成图像的「风格」,如何将二者在控制过程中实现解耦,成为了ZipLoRA这类工作关注的重点。
具体来说,ZipLoRA通过优化合并系数,使得不同LoRA的特征向量在列空间上尽量正交,从而在LoRA parameter space正交的基础上(即LoRA新引入的不同维度控制信息之间无关),实现「主体+风格」的无损融合。

B-LoRA(block-wise LoRA):
B-LoRA中的分析很有意思:它发现SDXL的U-Net中,不同层对「主体」和「风格」的响应是分离的。
于是,它通过仅微调特定的style block或content block,实现了从单张参考图中解耦出内容和风格的能力。

UnZipLoRA:
UnZipLoRA相当于是ZipLoRA的逆过程。
ZipLoRA中,「主体」和「风格」分别来自于不同的reference image,但UnZipLoRA并不满足于将不同reference image中的特征合并,而是致力于从single image中「拆分」出独立的主体LoRA和风格LoRA。
它的具体做法是:通过在优化目标中引入orthogonality loss和解耦训练策略,UnZipLoRA能够让拆分出的两个LoRA互不干扰,且可以自由组合到其他生成任务中。

—文章来源Alonze