Skip to content

Aloento/StableImageKeypoints

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

StableXLKeypoints

中文 | English

简介

StableXLKeypointsStableImageKeypoints 的基础上,补全并完善了对 Stable Diffusion XL(SDXL)的适配,完成了此前 StableKeypoints 未完成的部分。本项目仅支持 SDXL 及其微调模型;如果你在寻找适用于 Stable Diffusion v1/v2 的版本,请看这里

特性与改进

  • 适配 AttnProcessor 2.0,兼容 SDXL 的注意力实现。

  • 面向 SDXL 的 CFG 与双文本编码器路径优化。

  • 关键点定位更稳定、更准确,语义一致性更强。

    • 得益于 SDXL 更大的文本嵌入,我们观察到显著更稳定的语义对应关系:

      在结果中可以看到,编号 3 始终指向尾羽,8 指向喙,9 指向眼角等,这些在 v1.5 中并不稳定的指向在 SDXL 下更一致。

  • 关键点更倾向于聚焦训练数据中的共有结构(如头部)。

  • 收敛速度与 v1.5 基本一致,显存占用控制良好。

请不要使用 FP16 变体。当前未做 FP16 兼容,涉及修改点较多,而且很容易出现梯度消失问题。

结果展示

Results

Keypoints

Augmentation

使用方法

用法与 v1.5 完全一致。请参考 v1.5 的「快速开始」部分,按相同步骤配置与运行。

其他

  • 我不计划为本研究单独撰写论文,因此不在此做形式化论证;欢迎你亲自尝试并基于此继续探索。
  • 从工作量与难度上看,本项目大致相当于一般意义上的本科毕业设计。希望这个改进版对你的研究有所帮助,也欢迎基于此继续优化与拓展。

About

From SIDv1.5 to Stable Diffusion XL

Resources

License

Stars

Watchers

Forks

Languages

  • Python 100.0%