隨著新模型的發(fā)布,由其驅(qū)動(dòng)的AI電影創(chuàng)作工具Flow也迎來(lái)了更新,可以幫助你更精細(xì)地編輯視頻片段,對(duì)最終場(chǎng)景實(shí)現(xiàn)更顆?;目刂?。

文字編輯|宋雨涵

1

Veo 3.1的技術(shù)突破:

核心性能躍升

谷歌Veo 3.1作為當(dāng)前AI視頻生成領(lǐng)域的標(biāo)桿產(chǎn)品,在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)了顯著突破:

技術(shù)指標(biāo)Veo 3.1表現(xiàn)對(duì)比Veo 3提升行業(yè)基準(zhǔn)對(duì)比
生成速度1-4分鐘2倍提速快于Sora 2(3-5分鐘)
視頻分辨率1080P高清畫(huà)質(zhì)提升40%與Runway Gen-3相當(dāng)
視頻時(shí)長(zhǎng)最長(zhǎng)60秒大幅延長(zhǎng)接近Sora的1分鐘上限
音頻支持完整音頻生成新增功能領(lǐng)先于大部分僅支持基礎(chǔ)音效的競(jìng)品

關(guān)鍵技術(shù)創(chuàng)新點(diǎn)解析

1. 畫(huà)面真實(shí)感與敘事控制力:Veo 3.1通過(guò)融合物理引擎與3D時(shí)空注意力機(jī)制,顯著提升了場(chǎng)景真實(shí)感。其”真實(shí)紋理捕捉”技術(shù)能夠還原材質(zhì)細(xì)節(jié),如布料褶皺、金屬反光等微觀特征。

在敘事控制方面,引入了精確的相機(jī)運(yùn)動(dòng)參數(shù)調(diào)節(jié)(包括焦距、光圈、運(yùn)動(dòng)軌跡)和對(duì)象軌跡編輯系統(tǒng),使用戶(hù)可預(yù)設(shè)復(fù)雜鏡頭語(yǔ)言,如環(huán)繞跟蹤、推拉搖移等專(zhuān)業(yè)運(yùn)鏡效果。

2. 多模態(tài)輸入與提示詞理解:支持文本、圖像、視頻片段的混合輸入模式,實(shí)現(xiàn)”文本+參考圖”的精準(zhǔn)創(chuàng)作控制。通過(guò)Diffusion Transformer架構(gòu)優(yōu)化,模型對(duì)復(fù)雜提示詞的理解準(zhǔn)確率提升35%,能解析包含情緒描述(如”憂郁的雨天街道”)、鏡頭語(yǔ)言(如”希區(qū)柯克式變焦”)和風(fēng)格指定(如”韋斯·安德森美學(xué)”)的復(fù)合指令。

3. 音畫(huà)同步與音頻生成能力:Veo 3.1實(shí)現(xiàn)了三大音頻突破:

2

Flow平臺(tái)的新功能

編輯更靈活,音頻功能強(qiáng)大

作為Veo模型的應(yīng)用載體,谷歌的Flow平臺(tái)此次也進(jìn)行了同步升級(jí),
引入了一系列新功能來(lái)充分發(fā)揮Veo 3.1的潛力。Flow定位為AI影視創(chuàng)作工具,旨在幫助用戶(hù)以更直觀高效的方式制作視頻。自2025年5月推出以來(lái),F(xiàn)low已經(jīng)展現(xiàn)出強(qiáng)大的創(chuàng)造力,在短短5個(gè)月內(nèi)生成了超過(guò)2.75億段視頻。

Flow中新增的兩個(gè)編輯功能—— 插入新元素讓用戶(hù)可以隨時(shí)添加內(nèi)容,F(xiàn)low會(huì)自動(dòng)處理陰影和光線,使新增部分自然融入原有畫(huà)面;
移除對(duì)象功能(即將上線)則可以刪除不需要的元素,F(xiàn)low動(dòng)重建背景保持一致性。這兩個(gè)工具的組合能夠讓視頻的編輯過(guò)程變得更加靈活。

新版Flow首次將AI生成的音頻引入到所有主要功能中,實(shí)現(xiàn)了視頻生成與音頻生成的一體化。在過(guò)去,用戶(hù)使用Flow生成的視頻往往只有畫(huà)面沒(méi)有聲音,需要后期手動(dòng)添加配樂(lè)或音效。而現(xiàn)在,當(dāng)用戶(hù)使用“素材生視頻”“首尾幀轉(zhuǎn)視頻”“視頻延展”等功能時(shí),F(xiàn)low會(huì)自動(dòng)為生成的視頻片段配上相應(yīng)的音頻。

3

算力豹觀察

AI影視創(chuàng)作的發(fā)展趨勢(shì)與未來(lái)展望

一、多模態(tài)融合:創(chuàng)意表達(dá)的 “全鏈路解放” 已見(jiàn)雛形

谷歌Veo 3.1與Flow平臺(tái)的聯(lián)動(dòng),實(shí)則為AI影視的多模態(tài)未來(lái)埋下了重要伏筆。當(dāng)模型既能讀懂“黑澤明式光影”的文本指令,又能接納SVG矢量圖素材輸入,還能同步生成匹配畫(huà)面情緒的環(huán)境音效時(shí),“文本—圖像—音頻”的創(chuàng)作壁壘已在悄然瓦解。

這種融合絕非技術(shù)堆砌。對(duì)創(chuàng)作者而言,這意味著“小說(shuō)改編動(dòng)畫(huà)短片”“廣告分鏡直轉(zhuǎn)動(dòng)態(tài)視頻”等跨媒體創(chuàng)作將從構(gòu)想落地為現(xiàn)實(shí)。正如Flow平臺(tái)“素材轉(zhuǎn)視頻”功能所展示的,三張風(fēng)格參考圖+百字文本,就能生成邏輯連貫的短片——這正是多模態(tài)模型“理解復(fù)雜創(chuàng)意意圖”的初級(jí)實(shí)踐,未來(lái)更有望實(shí)現(xiàn)“一次創(chuàng)意輸入,多藝術(shù)形式輸出”的創(chuàng)作自由。

二、實(shí)時(shí)生成:影視與互動(dòng)體驗(yàn)的邊界將被打破

當(dāng)前Veo 3.1生成8秒視頻需28秒的效率,雖距“實(shí)時(shí)”尚有距離,但已透出明確信號(hào):隨著云端算力優(yōu)化與模型輕量化發(fā)展,低延遲視頻生成正在逼近。這一技術(shù)突破的價(jià)值,遠(yuǎn)不止于縮短制作周期。

這種“可玩的電影”形態(tài),或?qū)⒊蔀槔^網(wǎng)劇之后的下一代內(nèi)容風(fēng)口,而谷歌在云端部署與專(zhuān)用硬件上的探索,正為這一天鋪墊基礎(chǔ)。

三、模型進(jìn)化:朝著“更聰明的創(chuàng)作伙伴”迭代

從技術(shù)底層看,Veo 3.1的“首尾幀錨定”與片段延展功能,已暴露出現(xiàn)有模型在長(zhǎng)序列生成上的努力——通過(guò)分層處理關(guān)鍵幀與中間幀,兼顧連貫性與細(xì)節(jié)精度。

更值得關(guān)注的是“生成模型+大語(yǔ)言模型”的融合趨勢(shì)。當(dāng)Veo 3.1能理解500字劇本并生成多鏡頭序列時(shí),本質(zhì)是視頻生成能力與語(yǔ)言理解能力的初步結(jié)合。未來(lái),這種融合將催生“能聊劇情、會(huì)做分鏡、懂鏡頭語(yǔ)言”的智能創(chuàng)作伙伴,甚至能通過(guò)強(qiáng)化學(xué)習(xí)不斷優(yōu)化生成內(nèi)容,貼合人類(lèi)審美偏好。

寫(xiě)在最后:

從月初的Sora 2到今天的Veo 3.1,視頻生成領(lǐng)域的競(jìng)賽在短時(shí)間內(nèi)再度升溫。然而,與從Veo 2到Veo 3的代際飛躍相比,Veo 3.1的此次升級(jí)更像是一次扎實(shí)的“中期迭代”,其意義在于將尖端技術(shù)轉(zhuǎn)化為創(chuàng)作者手中更穩(wěn)定、更可控的生產(chǎn)工具。

總體而言,Veo 3.1的發(fā)布為AI視頻創(chuàng)作提供了更強(qiáng)大的支撐,尤其是在原生音頻集成與畫(huà)面精準(zhǔn)編輯上,標(biāo)志著多模態(tài)生成正走向成熟。但在實(shí)際應(yīng)用中,這并未完全解決AI視頻的所有挑戰(zhàn)。創(chuàng)作者在利用其高效生成能力的同時(shí),仍需對(duì)畫(huà)面細(xì)節(jié)、邏輯連貫性進(jìn)行人工審查與調(diào)整,以克服模型當(dāng)前的局限,從而將工具的潛力轉(zhuǎn)化為真正高質(zhì)量的作品。

當(dāng)前,行業(yè)正從追求技術(shù)奇觀的“沖刺期”,逐步進(jìn)入一個(gè)更為關(guān)鍵的“應(yīng)用深耕期”。未來(lái)的競(jìng)爭(zhēng),將不僅是參數(shù)的比拼,更是如何將技術(shù)無(wú)縫融入創(chuàng)作流程,在提升效率的同時(shí),真正釋放而非束縛人類(lèi)的創(chuàng)意。

分享到

lixiangjing

算力豹主編

相關(guān)推薦