一致性模型思路,打破固有

核心原理

sCM的核心原理是基于一致性模型思路,通過直接將噪聲轉換為無噪聲樣本來生成數據。

在傳統(tǒng)擴散模型中,數據生成過程被視作一條從噪聲到數據的漸進路徑,每一步都通過去噪來逐漸恢復數據的清晰度。

一致性模型則恰恰相反,可找到一條更直接的路徑,在單步或少數幾步內直接從噪聲狀態(tài)跳躍到數據狀態(tài)。

sCM采用了連續(xù)時間框架,使得模型在理論上可以在連續(xù)的時間軸上進行操作,從而避免了離散時間模型中的離散化誤差。在連續(xù)時間于一致性模型中,模型的參數化、擴散過程和訓練目標都被重新定義,以適應連續(xù)時間的設置。

例如,模型的參數化不再依賴于離散的時間步,而是直接依賴于時間本身。這種連續(xù)時間的參數化方式使得模型能夠更精確地捕捉數據生成過程中的動態(tài)變化。

網絡架構方面

sCM引入了改進的時間條件、自適應組歸一化、新的激活函數和自適應權重,以提高模型的訓練穩(wěn)定性和生成質量。改進的時間條件使得模型能夠更準確地感知時間t的變化,從而在生成過程中做出更合理的決策。

自適應組歸一化則有助于模型在訓練過程中保持內部特征的穩(wěn)定性,減少訓練過程中的噪聲干擾。新的激活函數被引入以增強模型的非線性表達能力,使得模型能夠更好地學習復雜的數據分布。

而自適應權重的引入允許模型根據訓練數據的分布動態(tài)調整損失函數中的權重,從而減少了不同時間步長之間的損失方差。

總結起來看sCM模型基于擴散模型的不同在于:

sCM是基于擴散模型的改進: sCM依賴于擴散模型的PF-ODE來定義訓練目標和采樣路徑,它并不是一個完全獨立的模型。

sCM關注單步去噪: sCM的訓練目標是學習一個能夠在單個時間步內進行有效去噪的函數,而不是像擴散模型那樣進行多步迭代去噪。

sCM采樣速度更快: 由于sCM只需要進行少量采樣步驟(例如兩步),因此其采樣速度比擴散模型快得多。

sCM并非一步到位:sCM的單步去噪并非一步到位地去除所有噪聲,而是沿著PF-ODE的軌跡向更清晰的方向移動一步,多次迭代操作最終達到去噪效果。

sCM:兩步到位,速度起飛!

OpenAI基于之前的consistency models研究,并吸取了EDM和流匹配模型的優(yōu)點,提出了TrigFlow,一個統(tǒng)一的框架。這個框架升級的地方在于,它簡化了理論公式,讓訓練過程更穩(wěn)定,還把擴散過程、擴散模型參數化、PF-ODE、擴散訓練目標以及CM參數化都整合成更簡單的表達式了!這為后續(xù)的理論分析和改進奠定了堅實的基礎。

基于TrigFlow,OpenAI開發(fā)出了sCM模型,甚至可以在ImageNet 512×512分辨率上訓練15億參數的模型,簡直是史無前例!這是目前最大的連續(xù)時間一致性模型!

sCM 最厲害的地方在于,它只需兩步采樣,就能生成與擴散模型質量相當的圖像,速度提升50倍!例如,最大的15億參數模型,在單個A100 GPU上生成一張圖片只需0.11秒,而且還沒做任何優(yōu)化!如果再進行系統(tǒng)優(yōu)化,速度還能更快,簡直是打開了實時生成的大門!

性能評估與優(yōu)勢

1

高效的圖像生成

OpenAI用FID(Fréchet Inception Distance它是一種用于評估生成模型生成圖像質量的指標)分數(越低越好)和有效采樣計算量(生成每個樣本所需的總計算成本)來評估sCM的性能。

結果顯示,sCM兩步采樣的質量與之前最好的方法相當,但計算量卻不到10%!在 ImageNet 512×512 上,sCM的FID分數甚至比一些需要63步的擴散模型還要好!

在CIFAR-10上達到了2.06的FID,ImageNet 64×64上達到了1.48,ImageNet 512×512上達到了1.88,與最好的擴散模型的FID分數差距在10%以內。

2

跨領域生成能力

sCM不僅能夠生成高質量的圖像

sCM同樣具備生成三維模型的能力。這對于3D打印、虛擬現實等領域來說具有重要意義,因為它可以快速生成高質量的三維模型數據。

通過利用sCM的高效生成能力,可以加速三維模型的設計和制作過程,提高生產效率。

除了圖像和視頻生成外,sCM還能處理音頻內容的生成。這擴展了sCM的應用范圍,使其能夠在音頻領域也發(fā)揮作用。

在音樂制作、音頻設計等領域,sCM可以用于生成或編輯音樂和聲音效果,為創(chuàng)作者提供更多的創(chuàng)作靈感和工具。

3

計算成本降低

與傳統(tǒng)擴散模型相比,sCM在保證樣本質量的前提下顯著降低了計算成本。這使得sCM在資源受限的環(huán)境中也能實現高效的生成任務。

未來展望與應用

實時視頻生成:隨著sCM的推出,實時視頻生成將不再是夢。sCM的高效采樣能力有望推動視頻生成技術的進一步發(fā)展,為媒體、娛樂等領域帶來更多創(chuàng)新應用。

系統(tǒng)優(yōu)化與定制:OpenAI的研究暗示了進一步系統(tǒng)優(yōu)化的潛力,可以根據各個行業(yè)的特定需求定制這些模型。這將使得sCM在不同領域中發(fā)揮更大的作用。

推動AI技術發(fā)展:sCM的發(fā)布不僅提升了圖像生成的速度和質量,也為AI技術的進一步發(fā)展和應用提供了新的思路和方法。它將推動AI技術在更多領域的應用和發(fā)展。

結語

OpenAI發(fā)布的sCM新型連續(xù)時間一致性模型在圖像生成速度上實現了50倍的提升,這一技術突破將為實時視頻生成等應用帶來革命性的變化。同時,sCM的跨領域生成能力和計算成本降低的優(yōu)勢也將推動AI技術在更多領域的應用和發(fā)展。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關推薦