一致性模型思路,打破固有

核心原理

sCM的核心原理是基于一致性模型思路,通過直接將噪聲轉(zhuǎn)換為無噪聲樣本來生成數(shù)據(jù)。

在傳統(tǒng)擴(kuò)散模型中,數(shù)據(jù)生成過程被視作一條從噪聲到數(shù)據(jù)的漸進(jìn)路徑,每一步都通過去噪來逐漸恢復(fù)數(shù)據(jù)的清晰度。

一致性模型則恰恰相反,可找到一條更直接的路徑,在單步或少數(shù)幾步內(nèi)直接從噪聲狀態(tài)跳躍到數(shù)據(jù)狀態(tài)。

sCM采用了連續(xù)時(shí)間框架,使得模型在理論上可以在連續(xù)的時(shí)間軸上進(jìn)行操作,從而避免了離散時(shí)間模型中的離散化誤差。在連續(xù)時(shí)間于一致性模型中,模型的參數(shù)化、擴(kuò)散過程和訓(xùn)練目標(biāo)都被重新定義,以適應(yīng)連續(xù)時(shí)間的設(shè)置。

例如,模型的參數(shù)化不再依賴于離散的時(shí)間步,而是直接依賴于時(shí)間本身。這種連續(xù)時(shí)間的參數(shù)化方式使得模型能夠更精確地捕捉數(shù)據(jù)生成過程中的動態(tài)變化。

網(wǎng)絡(luò)架構(gòu)方面

sCM引入了改進(jìn)的時(shí)間條件、自適應(yīng)組歸一化、新的激活函數(shù)和自適應(yīng)權(quán)重,以提高模型的訓(xùn)練穩(wěn)定性和生成質(zhì)量。改進(jìn)的時(shí)間條件使得模型能夠更準(zhǔn)確地感知時(shí)間t的變化,從而在生成過程中做出更合理的決策。

自適應(yīng)組歸一化則有助于模型在訓(xùn)練過程中保持內(nèi)部特征的穩(wěn)定性,減少訓(xùn)練過程中的噪聲干擾。新的激活函數(shù)被引入以增強(qiáng)模型的非線性表達(dá)能力,使得模型能夠更好地學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布。

而自適應(yīng)權(quán)重的引入允許模型根據(jù)訓(xùn)練數(shù)據(jù)的分布動態(tài)調(diào)整損失函數(shù)中的權(quán)重,從而減少了不同時(shí)間步長之間的損失方差。

總結(jié)起來看sCM模型基于擴(kuò)散模型的不同在于:

sCM是基于擴(kuò)散模型的改進(jìn): sCM依賴于擴(kuò)散模型的PF-ODE來定義訓(xùn)練目標(biāo)和采樣路徑,它并不是一個完全獨(dú)立的模型。

sCM關(guān)注單步去噪: sCM的訓(xùn)練目標(biāo)是學(xué)習(xí)一個能夠在單個時(shí)間步內(nèi)進(jìn)行有效去噪的函數(shù),而不是像擴(kuò)散模型那樣進(jìn)行多步迭代去噪。

sCM采樣速度更快: 由于sCM只需要進(jìn)行少量采樣步驟(例如兩步),因此其采樣速度比擴(kuò)散模型快得多。

sCM并非一步到位:sCM的單步去噪并非一步到位地去除所有噪聲,而是沿著PF-ODE的軌跡向更清晰的方向移動一步,多次迭代操作最終達(dá)到去噪效果。

sCM:兩步到位,速度起飛!

OpenAI基于之前的consistency models研究,并吸取了EDM和流匹配模型的優(yōu)點(diǎn),提出了TrigFlow,一個統(tǒng)一的框架。這個框架升級的地方在于,它簡化了理論公式,讓訓(xùn)練過程更穩(wěn)定,還把擴(kuò)散過程、擴(kuò)散模型參數(shù)化、PF-ODE、擴(kuò)散訓(xùn)練目標(biāo)以及CM參數(shù)化都整合成更簡單的表達(dá)式了!這為后續(xù)的理論分析和改進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。

基于TrigFlow,OpenAI開發(fā)出了sCM模型,甚至可以在ImageNet 512×512分辨率上訓(xùn)練15億參數(shù)的模型,簡直是史無前例!這是目前最大的連續(xù)時(shí)間一致性模型!

sCM 最厲害的地方在于,它只需兩步采樣,就能生成與擴(kuò)散模型質(zhì)量相當(dāng)?shù)膱D像,速度提升50倍!例如,最大的15億參數(shù)模型,在單個A100 GPU上生成一張圖片只需0.11秒,而且還沒做任何優(yōu)化!如果再進(jìn)行系統(tǒng)優(yōu)化,速度還能更快,簡直是打開了實(shí)時(shí)生成的大門!

性能評估與優(yōu)勢

1

高效的圖像生成

OpenAI用FID(Fréchet Inception Distance它是一種用于評估生成模型生成圖像質(zhì)量的指標(biāo))分?jǐn)?shù)(越低越好)和有效采樣計(jì)算量(生成每個樣本所需的總計(jì)算成本)來評估sCM的性能。

結(jié)果顯示,sCM兩步采樣的質(zhì)量與之前最好的方法相當(dāng),但計(jì)算量卻不到10%!在 ImageNet 512×512 上,sCM的FID分?jǐn)?shù)甚至比一些需要63步的擴(kuò)散模型還要好!

在CIFAR-10上達(dá)到了2.06的FID,ImageNet 64×64上達(dá)到了1.48,ImageNet 512×512上達(dá)到了1.88,與最好的擴(kuò)散模型的FID分?jǐn)?shù)差距在10%以內(nèi)。

2

跨領(lǐng)域生成能力

sCM不僅能夠生成高質(zhì)量的圖像

sCM同樣具備生成三維模型的能力。這對于3D打印、虛擬現(xiàn)實(shí)等領(lǐng)域來說具有重要意義,因?yàn)樗梢钥焖偕筛哔|(zhì)量的三維模型數(shù)據(jù)。

通過利用sCM的高效生成能力,可以加速三維模型的設(shè)計(jì)和制作過程,提高生產(chǎn)效率。

除了圖像和視頻生成外,sCM還能處理音頻內(nèi)容的生成。這擴(kuò)展了sCM的應(yīng)用范圍,使其能夠在音頻領(lǐng)域也發(fā)揮作用。

在音樂制作、音頻設(shè)計(jì)等領(lǐng)域,sCM可以用于生成或編輯音樂和聲音效果,為創(chuàng)作者提供更多的創(chuàng)作靈感和工具。

3

計(jì)算成本降低

與傳統(tǒng)擴(kuò)散模型相比,sCM在保證樣本質(zhì)量的前提下顯著降低了計(jì)算成本。這使得sCM在資源受限的環(huán)境中也能實(shí)現(xiàn)高效的生成任務(wù)。

未來展望與應(yīng)用

實(shí)時(shí)視頻生成:隨著sCM的推出,實(shí)時(shí)視頻生成將不再是夢。sCM的高效采樣能力有望推動視頻生成技術(shù)的進(jìn)一步發(fā)展,為媒體、娛樂等領(lǐng)域帶來更多創(chuàng)新應(yīng)用。

系統(tǒng)優(yōu)化與定制:OpenAI的研究暗示了進(jìn)一步系統(tǒng)優(yōu)化的潛力,可以根據(jù)各個行業(yè)的特定需求定制這些模型。這將使得sCM在不同領(lǐng)域中發(fā)揮更大的作用。

推動AI技術(shù)發(fā)展:sCM的發(fā)布不僅提升了圖像生成的速度和質(zhì)量,也為AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用提供了新的思路和方法。它將推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。

結(jié)語

OpenAI發(fā)布的sCM新型連續(xù)時(shí)間一致性模型在圖像生成速度上實(shí)現(xiàn)了50倍的提升,這一技術(shù)突破將為實(shí)時(shí)視頻生成等應(yīng)用帶來革命性的變化。同時(shí),sCM的跨領(lǐng)域生成能力和計(jì)算成本降低的優(yōu)勢也將推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦