研究者們對(duì)如何將文本及其他條件整合到DiT架構(gòu)中進(jìn)行了廣泛的探索。例如,PixArt-Alpha通過(guò)采用跨注意力機(jī)制,實(shí)現(xiàn)了文本與圖像的有效結(jié)合;SD3則將文本與噪聲塊巧妙結(jié)合,并通過(guò)MMDiT模塊實(shí)施了自注意力機(jī)制。然而,盡管這些研究取得了一定的成果,但純文本驅(qū)動(dòng)的視頻生成(T2V)在創(chuàng)建連貫且逼真的視頻方面,仍然面臨著諸多挑戰(zhàn)。
為了克服這些挑戰(zhàn),業(yè)界提出了文本-圖像到視頻(TI2V)的任務(wù)。這一任務(wù)通過(guò)引入初始圖像幀作為參考,為視頻生成提供了更加明確的約束條件,使得生成的視頻在內(nèi)容和形式上更加符合人們的期望。
當(dāng)前,該領(lǐng)域仍面臨著諸多挑戰(zhàn)。如何有效地將圖像條件融入DiT架構(gòu),如何在保證模型穩(wěn)定性的同時(shí)提高大規(guī)模訓(xùn)練效率,都是亟待解決的問(wèn)題。
在此背景下,研究者提出了一種新的框架——STIV(可擴(kuò)展的文本與圖像條件視頻生成),以期為視頻生成的研究提供一種系統(tǒng)的方法。STIV框架的目標(biāo)是通過(guò)整合圖像條件和文本條件,構(gòu)建一個(gè)既可以完成T2V任務(wù),又能處理TI2V任務(wù)的統(tǒng)一模型,從而為視頻生成的多樣化和精確性提供支持。通過(guò)對(duì)不同架構(gòu)和策略的系統(tǒng)性分析,STIV框架旨在提高生成視頻的質(zhì)量和一致性。
STIV框架解讀
STIV框架專注于可擴(kuò)展的文本與圖像條件視頻生成。其基礎(chǔ)模型架構(gòu)基于PixArt,利用凍結(jié)VAE轉(zhuǎn)換輸入幀為時(shí)空潛在嵌入,并由可學(xué)習(xí)的DiT塊處理。文本處理采用T5 tokenizer和CLIP文本編碼器。
模型采用分解的時(shí)空注意力機(jī)制,先對(duì)空間標(biāo)記執(zhí)行空間自注意力,再對(duì)時(shí)間標(biāo)記執(zhí)行時(shí)間自注意力,有助于預(yù)加載T2I模型權(quán)重并保持視頻信息處理。
STIV使用原始圖像分辨率等元信息作為微觀條件,通過(guò)正弦嵌入層和MLP投影到d維嵌入空間,與擴(kuò)散時(shí)間步和文本標(biāo)記嵌入相加形成單例條件,用于生成Transformer層的參數(shù)。
模型采用旋轉(zhuǎn)位置嵌入(RoPE)增強(qiáng)處理相對(duì)時(shí)空關(guān)系的能力,分別對(duì)空間和時(shí)間注意力應(yīng)用二維和一維RoPE。
訓(xùn)練目標(biāo)采用流動(dòng)匹配,定義源分布與目標(biāo)分布間的條件最優(yōu)傳輸,通過(guò)求解逆向時(shí)序SDE從高斯噪聲中生成圖像。
在訓(xùn)練時(shí),STIV通過(guò)替換無(wú)噪聲圖像條件潛在表示實(shí)現(xiàn)圖像條件整合,提升模型靈活性,支持T2V和TI2V生成,以及視頻預(yù)測(cè)和幀插值。
結(jié)合聯(lián)合圖像-文本條件下的分類器無(wú)關(guān)引導(dǎo)(JIT-CFG)和圖像條件隨機(jī)丟棄,STIV實(shí)現(xiàn)多任務(wù)學(xué)習(xí)并緩解過(guò)擬合問(wèn)題,提高生成質(zhì)量。
STIV框架通過(guò)獨(dú)特策略和結(jié)構(gòu),高效靈活地應(yīng)對(duì)多種視頻生成任務(wù),為后續(xù)研究提供思路與基礎(chǔ)。
STIV的模型特點(diǎn)
01
支持多模態(tài)條件輸入
TIV模型不僅支持文本條件的輸入,還可以接收?qǐng)D像作為生成的參考,這為復(fù)雜的多模態(tài)生成任務(wù)提供了強(qiáng)有力的支持。
02
創(chuàng)新的架構(gòu)設(shè)計(jì)
STIV基于PixArt-Alpha架構(gòu),通過(guò)凍結(jié)的變分自編碼器(VAE)將輸入幀轉(zhuǎn)換為時(shí)空潛變量,并使用可學(xué)習(xí)的DiT塊進(jìn)行處理。
模型采用了分解時(shí)空注意力的方法,分別處理空間和時(shí)間維度的特征,從而在降低計(jì)算復(fù)雜度的同時(shí),實(shí)現(xiàn)了高效的信息處理。
03
聯(lián)合圖像-文本無(wú)分類器引導(dǎo)(JIT-CFG)
這一技術(shù)突破通過(guò)同時(shí)利用文本和圖像條件,在視頻生成過(guò)程中實(shí)現(xiàn)了更高的準(zhǔn)確性和質(zhì)量。
實(shí)驗(yàn)證明,圖像條件隨機(jī)丟棄結(jié)合JIT-CFG不僅能自然地實(shí)現(xiàn)多任務(wù)訓(xùn)練,還有效解決了高分辨率視頻生成模型訓(xùn)練的“靜止”問(wèn)題。
04
高效穩(wěn)定的訓(xùn)練技術(shù)
STIV在穩(wěn)定性和訓(xùn)練效率方面也進(jìn)行了多項(xiàng)創(chuàng)新。
通過(guò)適當(dāng)?shù)募夹g(shù)手段,大大降低了內(nèi)存需求,使得更大規(guī)模模型的訓(xùn)練成為可能。
采用了漸進(jìn)式訓(xùn)練策略,首先訓(xùn)練一個(gè)文本到圖像(T2I)模型,用以初始化文本到視頻(T2V)模型;隨后,T2V模型用于初始化STIV模型。
多視角生成
多視角生成旨在從給定的輸入圖像創(chuàng)建新視角。這項(xiàng)任務(wù)對(duì)視角一致性要求較高,依賴于良好預(yù)訓(xùn)練的視頻生成模型。通過(guò)將視頻生成模型適配為多視角生成,可以驗(yàn)證預(yù)訓(xùn)練是否有效捕獲了3D信息,從而提升生成效果。
當(dāng)使用某些新視角相機(jī)的定義,并以初始幀為給定圖像,預(yù)測(cè)接下來(lái)的新視角幀。通過(guò)訓(xùn)練一個(gè)TI2V模型并調(diào)整分辨率和訓(xùn)練步數(shù),實(shí)現(xiàn)了與現(xiàn)有方法相當(dāng)?shù)谋憩F(xiàn),同時(shí)驗(yàn)證了時(shí)空注意力機(jī)制在保持3D一致性方面的有效性。
長(zhǎng)視頻生成
該公司開(kāi)發(fā)了一種高效生成長(zhǎng)視頻的分層框架,包括兩種模式的訓(xùn)練:(1) 關(guān)鍵幀預(yù)測(cè),學(xué)習(xí)以較大時(shí)間間隔采樣的幀;(2) 插值幀生成,通過(guò)學(xué)習(xí)連續(xù)幀,并將首尾幀作為條件。在采樣階段,首先使用關(guān)鍵幀預(yù)測(cè)模式生成關(guān)鍵幀,再通過(guò)插值模式生成中間幀,從而實(shí)現(xiàn)長(zhǎng)視頻生成。
未來(lái)及其應(yīng)用前景
一、影視制作
高效視頻生成:STIV模型憑借其強(qiáng)大的生成能力,能夠迅速將詳盡的文本描述和豐富的圖像素材轉(zhuǎn)化為細(xì)膩且高質(zhì)量的視頻片段。這一特性不僅縮短了影視制作周期,還極大地提升了制作效率,使得影視作品能夠更快地從策劃走向觀眾。
創(chuàng)意視頻制作:創(chuàng)作者在構(gòu)思視頻內(nèi)容時(shí),可以充分利用STIV模型的靈活性,通過(guò)組合不同的文本描述和圖像素材,輕松生成充滿個(gè)性和創(chuàng)意的視頻內(nèi)容。這種創(chuàng)作方式不僅拓寬了視頻內(nèi)容的邊界,還為創(chuàng)作者提供了更多元化的表達(dá)手段。
二、廣告創(chuàng)意
廣告視頻制作:在廣告行業(yè)中,STIV模型能夠精準(zhǔn)捕捉廣告文案的精髓,并結(jié)合相關(guān)圖像素材,快速生成富有感染力和吸引力的視頻廣告。這不僅降低了廣告制作成本,還提高了廣告的傳播效率和市場(chǎng)響應(yīng)速度。
個(gè)性化廣告定制:STIV模型能夠根據(jù)廣告目標(biāo)受眾的喜好、興趣和行為特點(diǎn),調(diào)整輸入條件和參數(shù),生成符合其個(gè)性化需求的廣告視頻。這種定制化的廣告內(nèi)容不僅提高了廣告的投放效果,還增強(qiáng)了受眾對(duì)廣告品牌的認(rèn)同感和忠誠(chéng)度。
三、教育培訓(xùn)
教學(xué)視頻制作:教育機(jī)構(gòu)在利用STIV模型制作教學(xué)視頻時(shí),可以將復(fù)雜的文本和圖像內(nèi)容轉(zhuǎn)化為直觀且易于理解的視頻形式。這種教學(xué)方式不僅提高了學(xué)生的學(xué)習(xí)興趣和參與度,還提升了教學(xué)效果和學(xué)生的學(xué)習(xí)成績(jī)。
虛擬實(shí)驗(yàn)?zāi)M:在理工科教學(xué)中,STIV模型能夠生成逼真的虛擬實(shí)驗(yàn)?zāi)M視頻,幫助學(xué)生更好地理解實(shí)驗(yàn)過(guò)程和原理。這種虛擬實(shí)驗(yàn)不僅避免了傳統(tǒng)實(shí)驗(yàn)中的安全隱患,還為學(xué)生提供了更多動(dòng)手實(shí)踐的機(jī)會(huì)和平臺(tái)。
四、智能監(jiān)控
視頻預(yù)測(cè):STIV模型能夠根據(jù)已有的圖像和視頻內(nèi)容,預(yù)測(cè)未來(lái)的視頻幀,從而實(shí)現(xiàn)對(duì)監(jiān)控視頻的智能分析和預(yù)警。這種預(yù)測(cè)能力不僅提高了監(jiān)控系統(tǒng)的智能化水平,還為安全防范提供了有力支持。
異常行為檢測(cè):通過(guò)訓(xùn)練STIV模型識(shí)別異常行為模式,監(jiān)控系統(tǒng)能夠在實(shí)時(shí)視頻中自動(dòng)檢測(cè)并標(biāo)記出異常行為。這種智能化檢測(cè)方式不僅提高了異常行為發(fā)現(xiàn)的準(zhǔn)確性和及時(shí)性,還為相關(guān)部門提供了更多處理異常事件的決策依據(jù)。
五、游戲開(kāi)發(fā)
游戲視頻內(nèi)容創(chuàng)作:游戲開(kāi)發(fā)者可以利用STIV模型生成流暢且具有敘事性的游戲視頻內(nèi)容,為游戲宣傳和推廣提供有力支持。這種視頻內(nèi)容不僅吸引了更多玩家的關(guān)注和興趣,還提高了游戲的知名度和影響力。
游戲場(chǎng)景生成:STIV模型能夠根據(jù)游戲文案和圖像素材生成逼真的游戲場(chǎng)景視頻。這些場(chǎng)景視頻不僅為游戲開(kāi)發(fā)提供了豐富的視覺(jué)素材,還為玩家提供了更加沉浸式的游戲體驗(yàn)。
六、社交媒體
短視頻創(chuàng)作:在社交媒體短視頻創(chuàng)作火熱的今天,STIV模型為內(nèi)容創(chuàng)作者提供了新的創(chuàng)作工具和平臺(tái)。這種工具不僅簡(jiǎn)化了視頻制作流程,還提高了視頻創(chuàng)作的效率和質(zhì)量。
個(gè)性化視頻推薦:通過(guò)分析用戶的喜好和行為數(shù)據(jù),STIV模型能夠精準(zhǔn)生成符合用戶需求的個(gè)性化視頻推薦列表。這種推薦方式不僅提高了用戶的觀看體驗(yàn)和滿意度,還為社交媒體平臺(tái)帶來(lái)了更多流量和收益。
寫(xiě)在最后
蘋(píng)果的STIV模型無(wú)疑標(biāo)志著視頻生成AI領(lǐng)域的一次具有里程碑意義的重大進(jìn)步。它不僅在技術(shù)上實(shí)現(xiàn)了突破,更以其卓越的生成能力和廣泛靈活的應(yīng)用前景,預(yù)示著未來(lái)視頻創(chuàng)作領(lǐng)域即將邁入一個(gè)嶄新的多模態(tài)創(chuàng)作時(shí)代。STIV模型的出現(xiàn),意味著創(chuàng)作者們將擁有更為強(qiáng)大的工具來(lái)探索和實(shí)踐他們的創(chuàng)意理念。
對(duì)于廣大的創(chuàng)作者而言,STIV模型的潛力無(wú)疑是巨大的。它能夠快速將文本描述和圖像素材轉(zhuǎn)化為高質(zhì)量的視頻內(nèi)容,這一特性將極大地提升創(chuàng)作效率,使創(chuàng)作者們能夠更加專注于創(chuàng)意本身,而無(wú)需在繁瑣的技術(shù)細(xì)節(jié)上花費(fèi)過(guò)多時(shí)間。借助STIV的強(qiáng)大功能,創(chuàng)作者們將能夠更加高效地實(shí)現(xiàn)他們的創(chuàng)作目標(biāo),無(wú)論是制作一部引人入勝的短片,還是打造一部震撼人心的長(zhǎng)篇巨制,都將變得更加輕松和便捷。(文/宋雨涵)