(機(jī)翻版Prompt:一位時(shí)髦的女士穿行在東京的街頭,街道兩旁是溫暖的霓虹燈和動(dòng)態(tài)的城市標(biāo)識(shí)。她身穿黑色皮夾克、一條長(zhǎng)紅裙和黑靴,手拿黑色錢(qián)包。她佩戴著太陽(yáng)鏡和紅色口紅,自信而隨意地走著。街道潮濕且能反射光,營(yíng)造出彩色燈光的鏡像效果。許多行人來(lái)來(lái)往往。)
另外,我看到這個(gè)視頻甚至有兩段運(yùn)鏡,一個(gè)是遠(yuǎn)景,一個(gè)鏡頭拉的很近的特寫(xiě),甚至能看見(jiàn)女生臉上的痘痘。
打開(kāi)OpenAI的官網(wǎng),我找到了一些介紹內(nèi)容,我把我的學(xué)習(xí)和理解的內(nèi)容寫(xiě)在這里。
OpenAI在官網(wǎng)介紹中提到,他們幫AI理解和模擬物理世界的運(yùn)動(dòng),他們的目標(biāo)是用這個(gè)模型,來(lái)解決需要與現(xiàn)實(shí)世界交互時(shí)會(huì)碰到的各種問(wèn)題,比如,自動(dòng)駕駛汽車就算一種。
簡(jiǎn)單說(shuō),AI模型能更好地理解現(xiàn)實(shí)世界,能理解現(xiàn)實(shí)世界的人物和物體的運(yùn)動(dòng)方式,如果這種東西被用在智能駕駛領(lǐng)域,應(yīng)該會(huì)很有前景。
Sora作為一個(gè)文生視頻模型,能生成最多1分鐘時(shí)長(zhǎng)的視頻,這并不神奇,現(xiàn)在Runway早就可以做到。只不過(guò),Sora輸出的視頻質(zhì)量很高,同時(shí),能緊跟著提示詞里輸入的內(nèi)容來(lái)生成。
目前,Sora還沒(méi)有完全對(duì)外公開(kāi)可用,只是面向安全測(cè)試人員還有部分視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人訪問(wèn)來(lái)體驗(yàn)這個(gè)模型,先看看專業(yè)人士的意見(jiàn)。
Sora擁有生成包含眾多角色、特定動(dòng)作類型及主題與背景精確細(xì)節(jié)的復(fù)雜場(chǎng)景的能力。該模型不僅能理解用戶在提示中的請(qǐng)求,還能洞察這些元素在物理世界中的實(shí)際存在方式。從而讓人物和物體的動(dòng)作更流程和自然。
Sora對(duì)語(yǔ)言有深刻的理解,能夠準(zhǔn)確地理解提示詞,并生成引人入勝的角色。Sora還能在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地保持角色和視覺(jué)風(fēng)格的連貫性。
現(xiàn)在的Sora模型也有明顯不足。
它在模擬復(fù)雜場(chǎng)景的物理特性上會(huì)有問(wèn)題,可能不能很好地理解特定因果關(guān)系。例如,一個(gè)人可能會(huì)咬一口餅干,但餅干可能看不到咬過(guò)的痕跡。模型也可能搞錯(cuò)空間細(xì)節(jié),例如,將左和右搞混。
在將Sora整合到OpenAI的產(chǎn)品中之前,OpenAI會(huì)邀請(qǐng)安全專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試,幫助處理錯(cuò)誤信息、仇恨內(nèi)容和偏見(jiàn)等問(wèn)題。
OpenAI還在開(kāi)發(fā)工具,幫助檢測(cè)誤導(dǎo)性內(nèi)容,比如一個(gè)檢測(cè)分類器,能夠識(shí)別出一個(gè)視頻是由Sora生成的。未來(lái),如果正式對(duì)外部署這一模型,還會(huì)在視頻中包含C2PA元數(shù)據(jù)。
C2PA是由內(nèi)容真實(shí)性和來(lái)源聯(lián)盟(C2PA)定義的一種標(biāo)準(zhǔn),旨在提高數(shù)字內(nèi)容(如照片、視頻和文檔)的透明度和可信度。通過(guò)在內(nèi)容中嵌入C2PA元數(shù)據(jù),可以提供關(guān)于該內(nèi)容創(chuàng)作和修改歷史的詳細(xì)信息,包括內(nèi)容是如何、何時(shí)以及由誰(shuí)創(chuàng)建或更改的。
這有助于驗(yàn)證內(nèi)容的真實(shí)性,打擊深度偽造和誤導(dǎo)性信息,為用戶提供關(guān)于數(shù)字內(nèi)容來(lái)源和完整性的可靠信息。
出于安全和負(fù)責(zé)人方面的考慮,OpenAI把給DALL·E 3準(zhǔn)備的安全手段也都會(huì)用在Sora模型上。
他們會(huì)阻止包含有極端暴力、性內(nèi)容、仇恨等不合適的內(nèi)容請(qǐng)求。同時(shí),還會(huì)準(zhǔn)備檢查視頻幀的服務(wù),以確保生成的視頻內(nèi)容符合相關(guān)政策。
盡管OpenAI做了很多工作來(lái)確保AI技術(shù)的安全,但還是無(wú)法完全預(yù)見(jiàn)技術(shù)潛在風(fēng)險(xiǎn)。因此,他們強(qiáng)調(diào)與社會(huì)各界合作并從實(shí)際應(yīng)用中進(jìn)行摸索,在推進(jìn)AI技術(shù)發(fā)展的同時(shí),也逐步提高系統(tǒng)的安全性。
稍微談一點(diǎn)技術(shù)細(xì)節(jié)部分。
Sora是一種(Diffusion)擴(kuò)散模型,基本原理上,它通過(guò)從一個(gè)靜態(tài)噪聲的視頻開(kāi)始,在隨后多個(gè)步驟中逐漸去除噪聲,從而生成視頻。
看起來(lái)就跟Stable Diffusion、Disco Diffusion一樣。
Sora能夠一次性生成一整個(gè)視頻,或者給已有視頻添加新的時(shí)長(zhǎng)。通過(guò)讓模型一次性預(yù)見(jiàn)多幀,Sora解決了一個(gè)極具挑戰(zhàn)性的問(wèn)題,即使主體暫時(shí)離開(kāi)視野,也能保持不變,有很好的一致性。
與很多GPT模型一樣,Sora也采用了Transformer架構(gòu),從而獲得了更強(qiáng)的可擴(kuò)展性。
在Sora模型中,視頻和圖像被表示為一系列更小的數(shù)據(jù)單元,稱為“補(bǔ)丁”(patches),每個(gè)補(bǔ)丁都類似于GPT中的一個(gè)“令牌”(token)。通過(guò)將數(shù)據(jù)的表示方式進(jìn)行統(tǒng)一,Sora可以在更廣泛的視覺(jué)數(shù)據(jù)上進(jìn)行訓(xùn)練,這些數(shù)據(jù)包括不同的持續(xù)時(shí)間、分辨率和縱橫比。
Sora模型是在DALL·E和GPT模型的基礎(chǔ)上而構(gòu)建的。它采用了DALL·E 3中的重新標(biāo)注技術(shù),它可以為視覺(jué)訓(xùn)練數(shù)據(jù)生成高質(zhì)量的數(shù)據(jù)標(biāo)注。因此,模型能夠很好地遵從用戶輸入的文本指令。
Sora模型不僅能夠用文本生成視頻,還能夠用已有的靜態(tài)圖來(lái)生成視頻,準(zhǔn)確地將圖片變成動(dòng)畫(huà),圖片中的細(xì)節(jié)也都會(huì)處理的很好。此外,模型還能夠延長(zhǎng)已有視頻的內(nèi)容,還能自動(dòng)填補(bǔ)缺失的幀。
在OpenAI看來(lái),Sora是那些能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),這一能力將是實(shí)現(xiàn)通用人工智能(AGI)的一個(gè)重要里程碑。
OpenAI公布了在視頻數(shù)據(jù)上訓(xùn)練大規(guī)模生成式模型的方法,具體內(nèi)容可以查看如下鏈接:
https://openai.com/research/video-generation-models-as-world-simulators
這部分介紹中,OpenAI直接將視頻生成模型看做是世界模擬器(Video generation models as world simulators)。
想想也是,如果讓AI模型來(lái)理解這個(gè)世界的一些規(guī)律,如果能給模型輸入足夠的數(shù)據(jù),那么,AI的世界就能演繹真實(shí)的世界。
如果AI模型能理解世界更多規(guī)律,包括物理、化學(xué)、數(shù)學(xué)、醫(yī)藥等自然科學(xué)方面的規(guī)律,如果能給模型輸入足夠多的數(shù)據(jù),那該是一種什么樣的未來(lái)?