LoRA在图像生成中有哪些优秀的变式工作？

一、回归定义：LoRA是什么？

LoRA（Low-Rank Adaptation）是一种参数parameter-efficient fine-tuning技术，想必这个名字大家已经耳熟能详了，不管你是做diffusion model相关的，还是做LLM相关的研究，只要涉及foundation model的fine-tuning，基本上都离不开LoRA。
LoRA的特点顾名思义——它并不改变foundation model用于初始化的pre-trained model weights，而是通过加入一对可训练的低秩矩阵来模拟参数更新，所以名字中有「低秩」两个字。

二、Text-to-Image Generation的LoRA相关工作盘点

事实上在text-to-image generation及其衍生出的子任务中，为了在保有原生text-to-image diffusion model生成能力不被破坏的前提下，实现更精细的任务专精和概念解耦，现有方法中衍生出了一系列基于LoRA的改进设计，代表性工作有DreamBooth、ZipLoRA、B-LoRA和UnZipLoRA等。

DreamBooth LoRA：
这是最基础的专精形式，也是personalized image generation早期和Textual Inversion并存的奠基工作之一。
DreamBooth通过少量（3～5张）特定主体的reference image，微调case-specific的LoRA参数，使原生text-to-image diffusion model具备将特定标识符（如sks dog）绑定到该主体上的能力，从实现主体定制化的生成。
相比全量DreamBooth，LoRA极大地降低了训练成本，实操SD1.x的模型在单张NVIDIA 3090 GPU上也能进行训练；更重要的是，训练出来的模型权重不容易发生catastrophic forgetting现象，从而破坏原生text-to-image diffusion model对于text prompt的遵循能力。

ZipLoRA：
基于DreamBooth对于主体（或风格）的定制能力，ZipLoRA旨在解决多个LoRA合并时的冲突问题。
当我们想同时使用一个「主体LoRA」和一个「风格LoRA」时，同时对于一个text-guided generation的过程进行「主体」和「风格」上的控制时，直接将LoRA相加往往会导致严重的feature entanglement问题——即控制「主体」的同时，往往也会不可避免地影响生成图像的「风格」，如何将二者在控制过程中实现解耦，成为了ZipLoRA这类工作关注的重点。
具体来说，ZipLoRA通过优化合并系数，使得不同LoRA的特征向量在列空间上尽量正交，从而在LoRA parameter space正交的基础上（即LoRA新引入的不同维度控制信息之间无关），实现「主体+风格」的无损融合。

B-LoRA（block-wise LoRA）：
B-LoRA中的分析很有意思：它发现SDXL的U-Net中，不同层对「主体」和「风格」的响应是分离的。
于是，它通过仅微调特定的style block或content block，实现了从单张参考图中解耦出内容和风格的能力。

UnZipLoRA：
UnZipLoRA相当于是ZipLoRA的逆过程。
ZipLoRA中，「主体」和「风格」分别来自于不同的reference image，但UnZipLoRA并不满足于将不同reference image中的特征合并，而是致力于从single image中「拆分」出独立的主体LoRA和风格LoRA。
它的具体做法是：通过在优化目标中引入orthogonality loss和解耦训练策略，UnZipLoRA能够让拆分出的两个LoRA互不干扰，且可以自由组合到其他生成任务中。

—文章来源Alonze