什么是 Stable Diffusion
Stable Diffusion 是 Stability AI 在 2022 年开源的扩散模型(Diffusion Model),能够根据文字描述生成高质量图像。与 Midjourney 不同,它是完全开源、本地运行、免费使用的,而且拥有最庞大的社区生态。
2024-2025 年,Stable Diffusion 已经发展到 SD 3.5 和 Flux.1 等新一代模型,画质和文字理解能力都有了显著提升。
Stable Diffusion vs 其他 AI 绘画工具
| 对比项 | Stable Diffusion | Midjourney | DALL·E 3 |
|---|---|---|---|
| 价格 | 免费(本地) | $10-120/月 | 含在 ChatGPT Plus 中 |
| 开源 | ✅ | ❌ | ❌ |
| 本地运行 | ✅ | ❌ | ❌ |
| 自定义模型 | ✅ 数千个 | ❌ | ❌ |
| 商用许可 | ✅ | 需 Pro | 需查条款 |
| 学习曲线 | 陡峭 | 平缓 | 极简 |
| 画质 | 优秀 | 顶级 | 优秀 |
硬件要求
本地运行 Stable Diffusion 对硬件有一定要求:
- GPU:NVIDIA 显卡,至少 4GB 显存(推荐 8GB+)
- RAM:16GB 以上
- 存储:50GB+ 可用空间(模型文件较大)
- 系统:Windows、macOS(Apple Silicon)、Linux
如果硬件不足,可以使用云端方案:Google Colab、RunPod、ThinkDiffusion 等。
安装:Stable Diffusion WebUI
方法 1:AUTOMATIC1111 WebUI(最流行)
这是最受欢迎的本地 WebUI,功能最全:
# Windows
1. 下载 Python 3.10.6
2. 下载 Git
3. git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
4. 双击 webui-user.bat 启动
# macOS(Apple Silicon)
brew install cmake protobuf rust [email protected] git wget
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui && ./webui.sh方法 2:ComfyUI(节点式)
对于追求极致控制和高级工作流的用户,ComfyUI 是更专业的选择。它使用节点式编辑界面,可以构建复杂的图像生成 pipeline。
方法 3:一键安装包
- Easy Diffusion:最简单的安装方式,适合新手
- Stability Matrix:可以管理多个 SD 版本和模型
- Forge:性能优化版的 AUTOMATIC1111
下载模型(Checkpoint)
SD 的核心是 Checkpoint 模型文件(通常 2-7GB)。主要类型:
基础模型
- SD 1.5:最经典的版本,社区资源最多
- SDXL:分辨率更高,画质更好
- SD 3.5:2024 年新版,支持更复杂的 Prompt
- Flux.1:Black Forest Labs 的开源模型,画质媲美 Midjourney
风格化模型
从 Civitai 或 Hugging Face 下载,常见类型:
- Realistic Vision:写实人像
- Anything V5:动漫风格
- DreamShaper:综合艺术风格
- RevAnimated:半写实动漫
第一次生成:基础参数详解
核心参数
| 参数 | 含义 | 推荐值 |
|---|---|---|
| Prompt | 正面提示词 | 详细描述 |
| Negative Prompt | 负面提示词 | 避免的元素 |
| Sampling Method | 采样器 | DPM++ 2M Karras |
| Sampling Steps | 采样步数 | 20-30 |
| Width × Height | 分辨率 | 512×512(SD1.5)/ 1024×1024(SDXL) |
| CFG Scale | 提示词引导强度 | 7-9 |
| Seed | 随机种子 | -1(随机) |
Prompt 写法技巧
正面 Prompt:
masterpiece, best quality, 1 girl, long black hair, blue eyes,
wearing red dress, standing in cherry blossom park,
soft lighting, depth of field, photorealistic, 8k
负面 Prompt:
low quality, blurry, deformed, ugly, bad anatomy,
extra fingers, watermark, signature关键词权重:使用 (keyword:1.3) 提高权重,[keyword] 降低权重。
进阶功能
1. LoRA(低秩适应)
LoRA 是一种轻量级的模型微调方式,文件通常只有 50-200MB。可以让基础模型生成特定角色、风格、服装等。
使用方法:在 Prompt 中加入 <lora:模型名:权重>,例如 <lora:bestSmiles:0.8>。
2. ControlNet
ControlNet 让你精确控制生成图像的姿势、构图、深度、边缘等。常用的 Preprocessor:
- OpenPose:控制人物姿势
- Canny:边缘检测
- Depth:深度图控制
- Scribble:手绘草图转图像
- Tile:高清放大保持细节
3. Inpaint(局部重绘)
Inpaint 让你只重新生成图像的一部分。例如:
- 替换人物的衣服
- 修改背景
- 修复不完美的细节(手部、眼睛)
4. img2img(图生图)
使用一张参考图像生成新图像,保留构图和颜色,改变细节。
实战工作流:人像写真
- 选择模型:Realistic Vision V6.0
- 设置参数:1024×1024、DPM++ 2M Karras、30 步、CFG 7
- 编写 Prompt:详细描述人物特征、服装、场景
- 添加 LoRA:添加面部细节增强 LoRA
- 生成测试:先用低分辨率快速测试
- 使用 ControlNet:固定姿势
- 高清修复:开启 Hires.fix 放大到 2048×2048
- Inpaint 修正:修复手部和眼睛细节
常见问题
Q: 为什么生成的人物有 6 根手指?
A: 这是 SD 的常见问题。解决方法:
- 在 Negative Prompt 中加入
extra fingers, missing fingers, bad anatomy - 使用 BadDream Embedding
- 用 Inpaint 局部重绘手部
Q: 显存不够怎么办?
A: 启动参数加 --medvram 或 --lowvram,或使用 SDXL Turbo 等优化版本。
Q: 商业使用有版权问题吗?
A: SD 模型本身是开源免费的(CreativeML Open RAIL-M 许可),生成的图像可商用。但要注意:
- 使用某些 LoRA 训练集可能涉及版权
- 不要用真人照片训练 LoRA 后用于商业用途
- 避免生成名人形象的商用图
哪些工具值得付费
如果你不想本地搭建,推荐这些云服务:
- RunPod:按小时租用 GPU,运行 SD WebUI,灵活
- ThinkDiffusion:开箱即用的云端 SD WebUI
- Replicate:API 调用,按次付费
同时使用 Midjourney 提升效率
很多专业 AI 艺术家是SD + Midjourney 结合使用:
- Midjourney:快速出概念图、灵感发散
- Stable Diffusion:精细化控制、批量生成、商业级输出
通过 9DSC 九度数城 代充 Midjourney:
- 无需国际信用卡
- 支持多种支付方式
- 即时开通,立即使用
- 价格优惠
结语
Stable Diffusion 是 AI 绘画的未来 —— 完全开源、无限可能。虽然学习曲线比 Midjourney 陡峭,但回报也是巨大的:完全免费、无生成限制、可商用、可微调。
立即开始你的 SD 之旅。如果想搭配 Midjourney 一起使用,访问 9DSC 九度数城 获取 Midjourney 订阅和其他 AI 工具。
