不僅如此,Turbo還展現(xiàn)出了前所未有的靈活性與創(chuàng)意空間。它支持文本與圖片/視頻素材的巧妙結(jié)合,能夠生成高度定制化的視頻內(nèi)容,從而極大地提升了生成效果的可控性。想象一下,若您渴望在一段普通的視頻中融入梵高《星夜》那如夢(mèng)如幻的藝術(shù)風(fēng)格,只需輕輕一點(diǎn),上傳原視頻并附上您的創(chuàng)意描述,Turbo便能輕松為您實(shí)現(xiàn)這一夢(mèng)想。
更令人振奮的是,即便您并非專業(yè)視頻編輯出身,對(duì)AE、Nuke、C4D等復(fù)雜軟件感到無(wú)所適從,借助Sora Turbo,您也能輕松為視頻作品添上令人矚目的特效,讓創(chuàng)意在指尖自由流淌。
目前,Sora Turbo已全面開(kāi)放使用,不設(shè)任何門(mén)檻與限制。尤為值得一提的是,ChatGPT Plus和Pro會(huì)員更是無(wú)需支付任何額外費(fèi)用,便能享受這一前沿服務(wù)。這一舉措無(wú)疑給廣大用戶帶來(lái)了意外的驚喜,令人由衷贊嘆OpenAI的誠(chéng)意與實(shí)力。
直播雖短,內(nèi)容震撼
奧特曼與Sora團(tuán)隊(duì)負(fù)責(zé)人Bill Peebles、研究副總Aditya Ramesh,以及Rohan Sahai、Joey Flynn開(kāi)啟了短短20分鐘的在線直播。
相較于2月的原版Sora,他們今天帶來(lái)了更高級(jí)的加速版Sora Turbo。
Sora能生成任意長(zhǎng)寬比的視頻,分辨率從480p到1080p,時(shí)長(zhǎng)從5秒到20秒,還可以一次生成多個(gè)方向的視頻版本,讓我們選擇其中最理想的一個(gè)。
包括文本到視頻、圖像到視頻、視頻到視頻的功能。
這次,OpenAI著重介紹了Sora的幾項(xiàng)功能:Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環(huán))、Blend(混合)以及Style presets(風(fēng)格預(yù)設(shè))。
所有新功能一覽:
OpenAI專為Sora設(shè)計(jì)的全新UI
Sora Turbo剛剛發(fā)布,大批熱情的用戶就涌入體驗(yàn)網(wǎng)站;服務(wù)器瞬間崩潰,導(dǎo)致OpenAI暫時(shí)關(guān)閉了新用戶注冊(cè)。
Sora Turbo的亮點(diǎn)
Sora Turbo是一款基于OpenAI早期技術(shù)報(bào)告中討論的世界模擬技術(shù)的高端加速版。這些新增功能包括:從文本生成視頻、生成動(dòng)畫(huà)圖像,以及許多強(qiáng)大的視頻功能,如重新混合視頻風(fēng)格、前后延伸時(shí)間,故事板,重新剪輯等,極大地拓展了創(chuàng)作者的創(chuàng)作空間。
在直播中,OpenAI展示了Sora的新功能。
其中包括“探索”頁(yè)面,展示了由社區(qū)成員創(chuàng)作的AI生成視頻流。
01
生成視頻之外,還能分鏡、加特效、無(wú)限創(chuàng)作
一打開(kāi)主界面,用戶便能輕松瀏覽和管理所有生成的視頻內(nèi)容。界面設(shè)計(jì)貼心,提供了網(wǎng)格視圖和列表視圖兩種展示方式,方便用戶根據(jù)個(gè)人喜好進(jìn)行選擇。此外,用戶還可以自由創(chuàng)建文件夾和收藏夾,以便更好地整理和查找視頻。書(shū)簽功能更是為用戶提供了便捷的回顧途徑。據(jù)研究人員介紹,這樣的主界面設(shè)計(jì)旨在助力用戶更好地構(gòu)思和創(chuàng)作故事。
在主頁(yè)面的底部中央,Sora 提供了文生視頻和圖生視頻兩大功能。用戶只需輸入文字描述,如“長(zhǎng)毛猛犸象在沙漠中行走,廣角鏡頭拍攝”,然后選擇視頻的畫(huà)面比、分辨率、時(shí)長(zhǎng)(5-20秒)以及最終生成的視頻數(shù)量(最多四段),即可輕松獲得逼真的視頻效果。這些視頻不僅質(zhì)感十足,還高度貼合用戶的輸入指令,讓人毫不意外于Sora的出色表現(xiàn)。
甚至,我們可以把猛犸象變成「機(jī)械猛犸」
值得注意的是,Sora 還推出了一系列獨(dú)特且進(jìn)階的產(chǎn)品功能。這些功能主要圍繞提升視頻的表達(dá)能力,通過(guò)分鏡、加特效等方式,幫助用戶創(chuàng)作出自己心中的故事。其中,故事板(storyboard)被譽(yù)為一種全新的創(chuàng)意工具。它按照時(shí)間軸的方式,將一段故事(視頻)切割成多個(gè)故事卡(視頻幀)。用戶只需設(shè)計(jì)和調(diào)整每張故事卡,Sora 就能自動(dòng)將其串聯(lián)成一段流暢的故事。這一功能類似于電影分鏡或動(dòng)畫(huà)手稿,讓用戶能夠像導(dǎo)演或漫畫(huà)師一樣,通過(guò)繪制分鏡來(lái)構(gòu)思和創(chuàng)作視頻。
比如研究人員設(shè)想的第一個(gè)分鏡是,「美麗的白鶴站在小溪中,擁有一條黃色的尾巴?!沟诙€(gè)分鏡是,「鶴將頭探入水中,并捉出一條魚(yú)」。那他做的工作就是,分別創(chuàng)建這兩張故事卡(視頻幀),并在兩者之間設(shè)大概五秒鐘的間隔。這個(gè)間隔對(duì) Sora 很重要,給了它把兩組動(dòng)作連起來(lái)的發(fā)揮空間。最終,他得到了一個(gè)完整的視頻鏡頭,「美麗的白鶴站在小溪中,它擁有一條黃色的尾巴。接著鶴將頭探入水中,并捉出一條魚(yú)?!?/p>
Storyboard(故事板):
更為神奇的是,帶有關(guān)鍵幀的時(shí)間軸,是Sora非常亮眼的新功能。在個(gè)人時(shí)間軸上,可以組織和編輯獨(dú)特的視頻序列。
故事板不僅支持故事卡,還可以直接添加圖片和視頻素材。用戶可以將任意圖片或視頻拉入故事板,結(jié)合故事卡進(jìn)行創(chuàng)作。以視頻為例,用戶可以將已有的視頻片段導(dǎo)入故事板,進(jìn)行剪切和編輯,為視頻的前方和后方留出創(chuàng)作空間,從而添加新的開(kāi)頭和結(jié)尾。這樣的設(shè)計(jì)讓故事板具備了無(wú)限創(chuàng)作的可能性。用戶可以不斷地對(duì)Sora生成的20秒視頻進(jìn)行創(chuàng)作、剪切和再創(chuàng)作,直至達(dá)到理想的鏡頭效果。
A vast redlandscape with adocked spaceship in the distance
廣袤的紅色星球景觀中,一艘銀光閃閃的宇宙飛船靜靜??吭谶h(yuǎn)處
Looking out frominside thespaceship, a spacecowboy standscenter frame
透過(guò)宇宙飛船的舷窗向外眺望,一位星際牛仔挺立在畫(huà)面中央
Detailed close up view of astronaut’seyes framed by aknitted fabricmask
特寫(xiě)鏡頭下,宇航員深邃的雙眼透過(guò)織物面罩的框架凝視著前方
Remix(重混)
此外,Sora 還提供了其他強(qiáng)大的功能,如通過(guò)文字直接修改視頻、無(wú)縫融合兩段不同的視頻以及改變視頻畫(huà)風(fēng)等。這些功能相當(dāng)于給視頻添加了“特效”,讓用戶能夠更靈活地表達(dá)自己的想法和創(chuàng)意。相比之下,一般的文生視頻產(chǎn)品可能需要用戶不斷調(diào)整提示詞并重新生成視頻,而Sora 則允許用戶直接在生成的視頻上進(jìn)行修改和加工,從而更貼合用戶的想象和創(chuàng)意。
這個(gè)功能,可以讓我們替換、刪除或重新想象視頻中的元素。
比如,我們先生成一個(gè)場(chǎng)景——打開(kāi)通向圖書(shū)館的大門(mén)。
然后,通過(guò)Remix把門(mén)更換成法式的門(mén)。
再把圖書(shū)館變成一艘宇宙飛船。
接著去掉宇宙飛船,加入?yún)擦謭?chǎng)景。
最后把叢林換成月球表面。
總的來(lái)說(shuō),Sora不僅在視頻生成方面表現(xiàn)出色,還帶來(lái)了更多獨(dú)特的視頻創(chuàng)作功能。這些功能相當(dāng)于給視頻添加了分鏡、剪輯和特效等元素,讓用戶能夠更自由地創(chuàng)作出自己真正想要表達(dá)的內(nèi)容。正如OpenAI研究人員所說(shuō):“如果你期望只需點(diǎn)擊一個(gè)按鈕就能生成一部電影,那么你可能對(duì)Sora的期望有所誤解。Sora是一種工具,它允許人們?cè)诙鄠€(gè)地方嘗試多個(gè)想法,并探索以前完全不可能的事情。我們認(rèn)為這是創(chuàng)作者的超級(jí)特殊延伸?!?/p>
視頻對(duì)AI發(fā)展的重要性
OpenAI的首席執(zhí)行官Sam Altman強(qiáng)調(diào),視頻對(duì)AI發(fā)展的重要性。
在發(fā)布會(huì)現(xiàn)場(chǎng),OpenAI的首席執(zhí)行官Sam Altman強(qiáng)調(diào)了視頻對(duì)于AI技術(shù)發(fā)展的重要性,并從三個(gè)方面闡述了這一觀點(diǎn):
1.為創(chuàng)意人士制作工具:Altman表示,OpenAI一直致力于為創(chuàng)意人士提供強(qiáng)大的工具,幫助他們推動(dòng)創(chuàng)作。這種新工具的推出為AI在創(chuàng)意領(lǐng)域的應(yīng)用打開(kāi)了新的篇章,并為未來(lái)的AI創(chuàng)作工具展現(xiàn)了令人興奮的前景。
2.突破文本限制:他指出,若AI僅限于文本互動(dòng),將錯(cuò)失許多重要的創(chuàng)作維度。通過(guò)AI生成視頻,用戶將能夠以全新的方式與技術(shù)互動(dòng),極大地改變我們與計(jì)算機(jī)的交互方式。
3.對(duì)AGI的影響:視頻生成對(duì)于實(shí)現(xiàn)通用人工智能(AGI)的目標(biāo)至關(guān)重要。Altman認(rèn)為,視頻將成為AI學(xué)習(xí)的關(guān)鍵環(huán)境,幫助AI掌握許多復(fù)雜的技能和任務(wù)。
根據(jù)Sora System Card的表述:
Sora的設(shè)計(jì)靈感來(lái)源于大型語(yǔ)言模型(LLM),模型通過(guò)訓(xùn)練互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)來(lái)獲得通用能力。LLM范式的成功部分得益于使用了能夠巧妙地將文本(包括代碼、數(shù)學(xué)公式和各種自然語(yǔ)言)的不同模態(tài)統(tǒng)一起來(lái)的標(biāo)記。
LLM使用文本標(biāo)記,Sora使用視覺(jué)補(bǔ)丁。
補(bǔ)丁是訓(xùn)練處理各種類型和視頻和圖像的生成式模型時(shí)一種高度可擴(kuò)展且有效的表示方法。將視頻轉(zhuǎn)換為補(bǔ)丁的過(guò)程是,首先將視頻壓縮到低維潛在空間,然后將其表示分解為時(shí)空補(bǔ)丁。
同時(shí),Sora也接受了多種數(shù)據(jù)集的訓(xùn)練,包括公開(kāi)可用數(shù)據(jù)的混合、通過(guò)合作伙伴關(guān)系訪問(wèn)的專有數(shù)據(jù),以及內(nèi)部開(kāi)發(fā)的定制數(shù)據(jù)集。
精選的公開(kāi)可用數(shù)據(jù),主要收集自行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲(chóng)。
來(lái)自數(shù)據(jù)合作伙伴關(guān)系的專有數(shù)據(jù),我們與合作伙伴建立合作關(guān)系,以訪問(wèn)非公開(kāi)數(shù)據(jù)。例如,OpenAI與Shutterstock和Pond5合作,構(gòu)建和提供AI生成的圖像。及與合作伙伴合作,委托和創(chuàng)建符合需求的數(shù)據(jù)集。
寫(xiě)在最后
Sora對(duì)于OpenAI的意義,絕非淺嘗輒止所能概括。團(tuán)隊(duì)在不懈的探索與鉆研中驚喜地發(fā)現(xiàn),視頻模型在歷經(jīng)大規(guī)模訓(xùn)練的洗禮后,竟能展現(xiàn)出諸多令人矚目的新能力,這使得Sora得以精準(zhǔn)地模擬現(xiàn)實(shí)世界中人類、動(dòng)物及環(huán)境的細(xì)膩之處。研究成果有力地證明,擴(kuò)展視頻生成模型為構(gòu)建物理世界的通用模擬器鋪設(shè)了一條光明璀璨的新道路。
正因如此,將Sora迅速融入大眾的日常生活,借助廣泛的數(shù)據(jù)資源來(lái)不斷優(yōu)化世界模型,對(duì)于OpenAI實(shí)現(xiàn)其夢(mèng)寐以求的AGI(人工智能通用智能)愿景而言,具有舉足輕重的地位。在技術(shù)的持續(xù)迭代與革新中,Sora不僅為OpenAI的進(jìn)步注入了強(qiáng)勁的動(dòng)力,更在潛移默化中激發(fā)了人類無(wú)盡的創(chuàng)造力。
盡管當(dāng)前版本的Sora仍存些許瑕疵,尚未達(dá)到盡善盡美的境地,但它已然邁入了我們認(rèn)為將對(duì)增強(qiáng)人類創(chuàng)造力產(chǎn)生深遠(yuǎn)影響的嶄新階段。我們滿懷憧憬,迫不及待地想要親眼目睹這個(gè)世界將如何利用Sora創(chuàng)造出前所未有的奇跡。作為Sora的締造者,OpenAI對(duì)此充滿信心與期待,讓我們靜候佳音吧。(文/宋雨涵)