擴散模型原理 - AI圖像生成基礎知識
了解AI如何從噪聲中創建圖像。為非技術讀者提供的擴散模型簡明解釋。
了解AI如何從噪聲中創建圖像。為非技術讀者提供的擴散模型簡明解釋。
你是否好奇過,為什麼輸入幾個詞就能生成驚艷的圖像?CubistAI、DALL-E和Midjourney等工具背後,是一種名為擴散模型的迷人技術。本指南用通俗易懂的語言解釋其工作原理,無需博士學位也能理解。
當你輸入「一隻穿著太空服的貓在火星上」,幾秒鐘後就收到一張詳細的圖像,這就是擴散模型在發揮作用。但究竟發生了什麼?
想像你有一張清晰的照片。現在想像慢慢添加靜態噪聲——像電視雪花屏——直到圖像變成純粹的隨機點。擴散模型學會的是反向執行這個過程:從純噪聲開始,逐漸去除它來顯現出連貫的圖像。
「擴散」這個名字來自物理學,描述粒子如何隨時間擴散。在AI中,我們做的是相反的事——從分散的隨機性開始,將其組織成有意義的內容。
在訓練期間,AI學習用噪聲破壞圖像時會發生什麼:
這就像通過展示垃圾是如何一步步產生的來教人打掃衛生。
當你生成圖像時,AI反向運行:
每個去除步驟都很小——通常總共20-50步——圖像在每個階段都變得更清晰。
這是提示詞發揮作用的地方:

想像生成這個外星景觀。以下是發生的過程:
第0步(純噪聲): 沒有規律的隨機彩色點
第10步: 模糊的形狀出現——暗區、亮區
第25步: 粗略的形態可見——地平線、球形物體
第40步: 細節形成——球體上的紋理、天空漸變
第50步(最終): 包含所有元素的完整詳細圖像
每一步都建立在前一步基礎上,就像照片在慢動作中顯影。
擴散模型不是處理完整圖像(慢且昂貴),而是在「潛在空間」中工作——一種壓縮的數學表示。
可以這樣理解:
處理摘要更快,同時保留了基本資訊。
大多數擴散模型的核心是一種特殊的神經網路叫U-Net:
去除噪聲的實際過程稱為「去噪」:
每次生成都會重複數十次。
擴散之前(GANs):
擴散模型:
與之前一次性生成圖像的AI不同,擴散模型是漸進式優化:
這種迭代方法產生更連貫、更詳細的結果。
Stable Diffusion XL (SDXL) 是驅動CubistAI的具體擴散模型。它在早期版本基礎上有所改進:
更大的模型:
雙文本編碼器:
優化階段:
為了更快生成,SDXL-Lightning使用「蒸餾」技術:
這就是為什麼CubistAI可以在幾秒內而不是幾分鐘內生成圖像。
讓我們追蹤當你向CubistAI提交提示詞時發生了什麼:
1. 文本處理:
你的提示詞:「cyberpunk city at night, neon lights, rain」
↓
分詞:[cyberpunk] [city] [at] [night] [,] [neon] [lights] [,] [rain]
↓
嵌入:在768個維度中表示含義的數字
2. 初始設置:
生成隨機噪聲:純靜態圖像
附加文本嵌入:引導向量
設置參數:解析度、步數等
3. 迭代去噪:
第1步:受「city」概念影響的主要形狀
第5步:夜間照明效果發展
第15步:霓虹色彩出現
第25步:雨效果呈現
第40步:精細細節銳化
第50步:最終圖像完成
4. 輸出:
潛在空間解碼回像素
最終圖像顯示給你
更多步數通常意味著更好的品質但更慢的生成:
| 步數 | 速度 | 品質 | 最佳用途 |
|---|---|---|---|
| 4-8 | 非常快 | 良好 | 快速預覽(Lightning) |
| 20-30 | 適中 | 很好 | 標準使用 |
| 50+ | 慢 | 優秀 | 最高品質 |
「無分類器引導」控制AI遵循提示詞的嚴格程度:
去噪的不同數學方法:
像SDXL這樣的擴散模型訓練使用了:
現實: 擴散模型不儲存或檢索圖像。它們學習模式和概念,生成全新的組合。
類比: 一位品嚐過數千道菜的廚師不是複製菜譜——他們理解風味原理並創造新菜。
現實: 超過某些點後收益遞減。30步通常看起來與100步幾乎相同。
現實: 這些模型學習統計模式,而不是含義。它們不「理解」貓是動物——它們知道什麼像素模式與「貓」這個詞相關聯。
現實: 你不是在搜尋資料庫。每張圖像都是新生成的,從你的文字引導的噪聲中數學推導出來。
理解擴散模型幫助你:
在 CubistAI 體驗擴散模型的實際效果:
擴散模型代表了AI圖像生成的根本性突破:
從隨機靜態到驚艷藝術作品,擴散模型通過優雅的數學和大規模訓練將文字轉化為視覺現實。
準備看擴散模型的實際效果? 訪問 CubistAI,觀看你的提示詞通過擴散模型的力量轉化為圖像!
通過我們的提示詞工程大師課學習更好地駕馭這項技術,或探索SDXL-Lightning技術獲得最快的生成體驗。