Stable Diffusion 完整入门教程:从安装到生成第一张 AI 图像

Stable Diffusion 完整入门教程:从安装到生成第一张 AI 图像

零基础学会 Stable Diffusion,覆盖 WebUI 安装、模型选择、Prompt 写法、Lora、ControlNet 等核心功能。

什么是 Stable Diffusion

Stable Diffusion 是 Stability AI 在 2022 年开源的扩散模型(Diffusion Model),能够根据文字描述生成高质量图像。与 Midjourney 不同,它是完全开源、本地运行、免费使用的,而且拥有最庞大的社区生态。

2024-2025 年,Stable Diffusion 已经发展到 SD 3.5 和 Flux.1 等新一代模型,画质和文字理解能力都有了显著提升。

Stable Diffusion vs 其他 AI 绘画工具

对比项Stable DiffusionMidjourneyDALL·E 3
价格免费(本地)$10-120/月含在 ChatGPT Plus 中
开源
本地运行
自定义模型✅ 数千个
商用许可需 Pro需查条款
学习曲线陡峭平缓极简
画质优秀顶级优秀

硬件要求

本地运行 Stable Diffusion 对硬件有一定要求:

  • GPU:NVIDIA 显卡,至少 4GB 显存(推荐 8GB+)
  • RAM:16GB 以上
  • 存储:50GB+ 可用空间(模型文件较大)
  • 系统:Windows、macOS(Apple Silicon)、Linux

如果硬件不足,可以使用云端方案:Google Colab、RunPod、ThinkDiffusion 等。

安装:Stable Diffusion WebUI

方法 1:AUTOMATIC1111 WebUI(最流行)

这是最受欢迎的本地 WebUI,功能最全:

# Windows
1. 下载 Python 3.10.6
2. 下载 Git
3. git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
4. 双击 webui-user.bat 启动

# macOS(Apple Silicon)
brew install cmake protobuf rust [email protected] git wget
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui && ./webui.sh

方法 2:ComfyUI(节点式)

对于追求极致控制和高级工作流的用户,ComfyUI 是更专业的选择。它使用节点式编辑界面,可以构建复杂的图像生成 pipeline。

方法 3:一键安装包

  • Easy Diffusion:最简单的安装方式,适合新手
  • Stability Matrix:可以管理多个 SD 版本和模型
  • Forge:性能优化版的 AUTOMATIC1111

下载模型(Checkpoint)

SD 的核心是 Checkpoint 模型文件(通常 2-7GB)。主要类型:

基础模型

  • SD 1.5:最经典的版本,社区资源最多
  • SDXL:分辨率更高,画质更好
  • SD 3.5:2024 年新版,支持更复杂的 Prompt
  • Flux.1:Black Forest Labs 的开源模型,画质媲美 Midjourney

风格化模型

Civitai 或 Hugging Face 下载,常见类型:

  • Realistic Vision:写实人像
  • Anything V5:动漫风格
  • DreamShaper:综合艺术风格
  • RevAnimated:半写实动漫

第一次生成:基础参数详解

核心参数

参数含义推荐值
Prompt正面提示词详细描述
Negative Prompt负面提示词避免的元素
Sampling Method采样器DPM++ 2M Karras
Sampling Steps采样步数20-30
Width × Height分辨率512×512(SD1.5)/ 1024×1024(SDXL)
CFG Scale提示词引导强度7-9
Seed随机种子-1(随机)

Prompt 写法技巧

正面 Prompt:
masterpiece, best quality, 1 girl, long black hair, blue eyes, 
wearing red dress, standing in cherry blossom park, 
soft lighting, depth of field, photorealistic, 8k

负面 Prompt:
low quality, blurry, deformed, ugly, bad anatomy, 
extra fingers, watermark, signature

关键词权重:使用 (keyword:1.3) 提高权重,[keyword] 降低权重。

进阶功能

1. LoRA(低秩适应)

LoRA 是一种轻量级的模型微调方式,文件通常只有 50-200MB。可以让基础模型生成特定角色、风格、服装等。

使用方法:在 Prompt 中加入 <lora:模型名:权重>,例如 <lora:bestSmiles:0.8>

2. ControlNet

ControlNet 让你精确控制生成图像的姿势、构图、深度、边缘等。常用的 Preprocessor:

  • OpenPose:控制人物姿势
  • Canny:边缘检测
  • Depth:深度图控制
  • Scribble:手绘草图转图像
  • Tile:高清放大保持细节

3. Inpaint(局部重绘)

Inpaint 让你只重新生成图像的一部分。例如:

  • 替换人物的衣服
  • 修改背景
  • 修复不完美的细节(手部、眼睛)

4. img2img(图生图)

使用一张参考图像生成新图像,保留构图和颜色,改变细节。

实战工作流:人像写真

  1. 选择模型:Realistic Vision V6.0
  2. 设置参数:1024×1024、DPM++ 2M Karras、30 步、CFG 7
  3. 编写 Prompt:详细描述人物特征、服装、场景
  4. 添加 LoRA:添加面部细节增强 LoRA
  5. 生成测试:先用低分辨率快速测试
  6. 使用 ControlNet:固定姿势
  7. 高清修复:开启 Hires.fix 放大到 2048×2048
  8. Inpaint 修正:修复手部和眼睛细节

常见问题

Q: 为什么生成的人物有 6 根手指?

A: 这是 SD 的常见问题。解决方法:

  • 在 Negative Prompt 中加入 extra fingers, missing fingers, bad anatomy
  • 使用 BadDream Embedding
  • 用 Inpaint 局部重绘手部

Q: 显存不够怎么办?

A: 启动参数加 --medvram--lowvram,或使用 SDXL Turbo 等优化版本。

Q: 商业使用有版权问题吗?

A: SD 模型本身是开源免费的(CreativeML Open RAIL-M 许可),生成的图像可商用。但要注意:

  • 使用某些 LoRA 训练集可能涉及版权
  • 不要用真人照片训练 LoRA 后用于商业用途
  • 避免生成名人形象的商用图

哪些工具值得付费

如果你不想本地搭建,推荐这些云服务:

  • RunPod:按小时租用 GPU,运行 SD WebUI,灵活
  • ThinkDiffusion:开箱即用的云端 SD WebUI
  • Replicate:API 调用,按次付费

同时使用 Midjourney 提升效率

很多专业 AI 艺术家是SD + Midjourney 结合使用

  • Midjourney:快速出概念图、灵感发散
  • Stable Diffusion:精细化控制、批量生成、商业级输出

通过 9DSC 九度数城 代充 Midjourney:

  • 无需国际信用卡
  • 支持多种支付方式
  • 即时开通,立即使用
  • 价格优惠

结语

Stable Diffusion 是 AI 绘画的未来 —— 完全开源、无限可能。虽然学习曲线比 Midjourney 陡峭,但回报也是巨大的:完全免费、无生成限制、可商用、可微调。

立即开始你的 SD 之旅。如果想搭配 Midjourney 一起使用,访问 9DSC 九度数城 获取 Midjourney 订阅和其他 AI 工具。