扩散模型原理 - AI图像生成基础知识
了解AI如何从噪声中创建图像。为非技术读者提供的扩散模型简明解释。
了解AI如何从噪声中创建图像。为非技术读者提供的扩散模型简明解释。
你是否好奇过,为什么输入几个词就能生成惊艳的图像?CubistAI、DALL-E和Midjourney等工具背后,是一种名为扩散模型的迷人技术。本指南用通俗易懂的语言解释其工作原理,无需博士学位也能理解。
当你输入"一只穿着太空服的猫在火星上",几秒钟后就收到一张详细的图像,这就是扩散模型在发挥作用。但究竟发生了什么?
想象你有一张清晰的照片。现在想象慢慢添加静态噪声——像电视雪花屏——直到图像变成纯粹的随机点。扩散模型学会的是反向执行这个过程:从纯噪声开始,逐渐去除它来显现出连贯的图像。
"扩散"这个名字来自物理学,描述粒子如何随时间扩散。在AI中,我们做的是相反的事——从分散的随机性开始,将其组织成有意义的内容。
在训练期间,AI学习用噪声破坏图像时会发生什么:
这就像通过展示垃圾是如何一步步产生的来教人打扫卫生。
当你生成图像时,AI反向运行:
每个去除步骤都很小——通常总共20-50步——图像在每个阶段都变得更清晰。
这是提示词发挥作用的地方:

想象生成这个外星景观。以下是发生的过程:
第0步(纯噪声): 没有规律的随机彩色点
第10步: 模糊的形状出现——暗区、亮区
第25步: 粗略的形态可见——地平线、球形物体
第40步: 细节形成——球体上的纹理、天空渐变
第50步(最终): 包含所有元素的完整详细图像
每一步都建立在前一步基础上,就像照片在慢动作中显影。
扩散模型不是处理完整图像(慢且昂贵),而是在"潜在空间"中工作——一种压缩的数学表示。
可以这样理解:
处理摘要更快,同时保留了基本信息。
大多数扩散模型的核心是一种特殊的神经网络叫U-Net:
去除噪声的实际过程称为"去噪":
每次生成都会重复数十次。
扩散之前(GANs):
扩散模型:
与之前一次性生成图像的AI不同,扩散模型是渐进式优化:
这种迭代方法产生更连贯、更详细的结果。
Stable Diffusion XL (SDXL) 是驱动CubistAI的具体扩散模型。它在早期版本基础上有所改进:
更大的模型:
双文本编码器:
优化阶段:
为了更快生成,SDXL-Lightning使用"蒸馏"技术:
这就是为什么CubistAI可以在几秒内而不是几分钟内生成图像。
让我们追踪当你向CubistAI提交提示词时发生了什么:
1. 文本处理:
你的提示词:"cyberpunk city at night, neon lights, rain"
↓
分词:[cyberpunk] [city] [at] [night] [,] [neon] [lights] [,] [rain]
↓
嵌入:在768个维度中表示含义的数字
2. 初始设置:
生成随机噪声:纯静态图像
附加文本嵌入:引导向量
设置参数:分辨率、步数等
3. 迭代去噪:
第1步:受"city"概念影响的主要形状
第5步:夜间照明效果发展
第15步:霓虹色彩出现
第25步:雨效果呈现
第40步:精细细节锐化
第50步:最终图像完成
4. 输出:
潜在空间解码回像素
最终图像显示给你
更多步数通常意味着更好的质量但更慢的生成:
| 步数 | 速度 | 质量 | 最佳用途 |
|---|---|---|---|
| 4-8 | 非常快 | 良好 | 快速预览(Lightning) |
| 20-30 | 适中 | 很好 | 标准使用 |
| 50+ | 慢 | 优秀 | 最高质量 |
"无分类器引导"控制AI遵循提示词的严格程度:
去噪的不同数学方法:
像SDXL这样的扩散模型训练使用了:
现实: 扩散模型不存储或检索图像。它们学习模式和概念,生成全新的组合。
类比: 一位品尝过数千道菜的厨师不是复制菜谱——他们理解风味原理并创造新菜。
现实: 超过某些点后收益递减。30步通常看起来与100步几乎相同。
现实: 这些模型学习统计模式,而不是含义。它们不"理解"猫是动物——它们知道什么像素模式与"猫"这个词相关联。
现实: 你不是在搜索数据库。每张图像都是新生成的,从你的文字引导的噪声中数学推导出来。
扩散模型解决的核心方程:
p(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_t²)
通俗解释:"给定这张噪声图像,略微去噪的图像的概率分布是什么?"
模型通过训练学习μ_θ(均值),预测信号可能隐藏在噪声中的位置。
添加/去除噪声的速度遵循"调度":
不同的调度会影响生成质量和速度。
文字如何引导图像生成:
理解扩散模型帮助你:
在 CubistAI 体验扩散模型的实际效果:
扩散模型代表了AI图像生成的根本性突破:
从随机静态到惊艳艺术作品,扩散模型通过优雅的数学和大规模训练将文字转化为视觉现实。
准备看扩散模型的实际效果? 访问 CubistAI,观看你的提示词通过扩散模型的力量转化为图像!
通过我们的提示词工程大师课学习更好地驾驭这项技术,或探索SDXL-Lightning技术获得最快的生成体验。