同伴客數據與至頂科技共同編寫了《AIGC人工智能生產內容行業(yè)研究報告》。AIGC被資本給予厚望,AIGC行業(yè)迎來的新的發(fā)展契機,但在政策、商業(yè)和法律等層面,仍然存在很大風險。
前言:
2022年8月,美國科羅拉多州舉辦的新興數字藝術家競賽中,一位沒有繪畫基礎的參賽者提交AIGC繪畫作品《太空歌劇院》,獲得了比賽“數字藝術/數字修飾照片”類別一等獎,引起業(yè)內關于“AI是否會取代藝術家”的一場爭論。
這也使得從2022年下半年開始,“AIGC”接棒“元宇宙”成為全球關注的焦點和熱議話題,各行各業(yè)都在積極探尋相關領域在AIGC助力下的嶄新發(fā)展方向。國內外大企業(yè)紛紛在AIGC領域進行布局,同時業(yè)內也涌現了一大批新興的科技型創(chuàng)業(yè)公司,在資本的助力下,AIGC行業(yè)迎來的新的發(fā)展契機。
AIGC已經引起了各行業(yè)的廣泛關注,如何將AIGC與各行業(yè)深度融合,進行業(yè)務模式的創(chuàng)新,以及如何避免其中可能存在的政策、商業(yè)和法律風險,成為了業(yè)界人士共同關心的議題。
本研究報告參考了AIGC業(yè)內眾多機構的研究成果,以及AIGC資深從業(yè)者的觀點和實踐經驗。從AIGC的行業(yè)發(fā)展概況出發(fā),系統(tǒng)梳理了AIGC與各行業(yè)業(yè)務結合的眾多場景和業(yè)務模式,同時整理了AIGC行業(yè)尚待解決的一些問題。希望本研究報告能為讀者打開接觸AIGC實踐的窗口,助力新經濟領域的實踐探索。
第一章:AIGC概念與國內外發(fā)展概況
1、AIGC概念與發(fā)展歷程
AIGC,全稱為:“AI Generated Content”。即人工智能生產的內容,是繼專業(yè)生產內容(PGC)、用戶生產內容(UGC) 之后誕生的,利用AI技術自動生成內容的新型生產方式。
在AIGC場景下,人工智能可靈活運用于寫作、編曲、繪畫和視頻制作等創(chuàng)意領域。初步估計,到2025年,人工智能生成數據占比將達到10%。根據《Generative AI:A Creative New World》的分析,AIGC有潛力產生數萬億美元的經濟價值。
(圖:PGC、UGC、AIGC對比)
AIGC尚處于早期階段,其精準概念范圍和商業(yè)落地路徑尚無行業(yè)共識,其發(fā)展可以大致分為以下三個階段:
早期萌芽階段:20世紀50年代到90年代中期,受限于科技水平,AIGC僅限于小范圍實驗。
沉積積累階段:20世紀90年代中期到21世紀10年代中期,AIGC從實驗向實用轉變,受限于算法,無法直接進行內容生成。
快速發(fā)展階段:21世紀10年代中期至今,深度學習算法不斷迭代,AI生成內容種類多樣豐富且效果逼真。尤其是近幾年來,AIGC的發(fā)展迅速,從原來作為邊緣側服務于企業(yè)、機構的角色,變?yōu)榱爽F在C端零基礎用戶都可以使用的創(chuàng)作工具。開發(fā)側重點上,AIGC也從原先用于翻譯、語音合成以及重復性工作,轉變?yōu)榱烁⒅貞脤用?,用戶能夠便捷操作的方向?/p>
AIGC在近年來的大發(fā)展主要源于三個契機:
1)更大的模型
數據表明,至少在文本生成領域,更大的模型有更好的效果。在過去5年中,隨著算力和算法的提升,模型參數量提升了3個數量級。2017年第一版生成模型只有1億參數,而最新的模型有超過1000億的參數。
2)高質量圖像生成引起的廣泛傳播
文本生成模型gpt3達到百萬用戶用了2年半,同樣的里程碑,代碼生成模型copilot用了半年,圖像生成模型dalle用了2.5個月,另一個圖像生成模型Stable Diffusion用了不到一個月。
3)更多的數據形態(tài)
在2021年之前,AIGC生成的還主要是文字,而新一代的模型可以處理任何內容格式,文字、語音、代碼、圖像、視頻、3D模型、游戲機的按鍵、機器人的動作等等。在不斷地把不同類型的數據用同一種思路做抽象,且都取得了很好的效果之后,我們隱約發(fā)現了一條可能通往通用人工智能(AGI)的路。
2022年AIGC發(fā)展速度驚人,年初還處于技藝生疏階段,幾個月之后就達到專業(yè)級別,足以以假亂真,這讓花費畢生所學進行創(chuàng)作的從業(yè)人員倍感焦慮和緊張。同時,AIGC的迭代速度呈現指數級爆發(fā),這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。
近年來資本市場一片寒冬,但AIGC領域卻在全球范圍逆勢向上,不斷傳來AI智能初創(chuàng)公司獲得新一輪融資的利好消息。目前國內外知名科技公司都完成了AIGC布局,谷歌、Meta、微軟,百度、阿里、字節(jié)等國內外科技巨頭悉數在AIGC領域有所投入。新晉AIGC行業(yè)獨角獸公司同樣層出不窮,以各式各樣的“AI炫技”名聲大噪,迅速完成了原始用戶積累和品牌影響力擴散。因此2022年被稱為“AIGC元年”,AIGC有望接棒元宇宙成為2023年科技和資本圈的最熱門概念。
(AI繪圖案例)
2、海外AIGC發(fā)展現狀
2022年8月,美國科羅拉多州舉辦的新興數字藝術家競賽中,一位沒有繪畫基礎的參賽者提交AIGC繪畫作品《太空歌劇院》,獲得了比賽“數字藝術/數字修飾照片”類別一等獎,引起業(yè)內關于“AI是否會取代藝術家”的一場爭論,也將AIGC概念推向新高潮。
隨著大眾對于AIGC的關注度持續(xù)上升,AIGC領域的融資規(guī)模也在近期快速擴張,目前已經出現多家估值超10億美元的獨角獸公司。
10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25億美元的A輪融資,估值達到15億美元。幾乎同一時間,Stability AI宣布獲得1.01億美元,公司宣布會繼續(xù)研發(fā)用于生成圖片、語言、音頻、視頻和3D的AI生成模型,投后估值達10億美元。
國外AIGC領域既有科技巨頭谷歌、META、微軟等,也不乏AIGC的新晉獨角獸Stability AI、Jasper、OpenAI等,并且科技公司很快又將AI作畫的熱度延續(xù)到了AI生成視頻等領域。從Meta宣布由文本到視頻的系統(tǒng)Make-A-Video,到谷歌宣布的可以從簡單的文本提示中生成高清視頻的Imagen Video和Phenaki,AIGC在海外市場迅速發(fā)展。
目前具有參照意義的海外公司主要有:
1)Zyro :圍繞垂直業(yè)務場景,結合業(yè)務 knowhow 組織相關 AIGC 能力
圍繞電商場景,通過 AIGC 生成網站搭建過程中所需的各類素材,具體業(yè)務包括針對性生成公司介紹、企業(yè)價值、Slogan、自動提升圖片清晰度、自動生成 logo 等。
2)NVIDIA:構建技術矩陣,使其最終服務于創(chuàng)作型工具平臺
在視覺生成研究領域始終位于前沿,代表作品包括 CycleGAN、GauGAN、EditGAN、GANverse3D、Instant NeRF 等。
3)OpenAI:將其底層模型對外開放商用,開創(chuàng)基礎設施型的商業(yè)模式
GPT-3 目前已經開始對外提供 API,并分為四種模型按照用量對外收費。
4)Gliacloud:拼湊式視頻生成代表
輸入文本鏈接,軟件能夠自動對其中的標題和文字進行區(qū)分表示,并根據不同層級自動匹配素材和文字的轉場、格式等,進而形成說明式的視頻。據公開數據,該方式能夠增加 10 倍的視頻產量。
類似公司還包括:Gliacloud、Synths.video、lumen5、Pencil。
5)Rosebud.ai:可結合營銷數據生成無版權糾紛的圖像
Rosebud.ai 能夠生成非真實的人臉圖像,并在該圖像中匹配相關衣物等所需素材。此外,模型面孔可以根據對應受眾的相關數據進行調整。該公司聲稱,其生成模型能夠使活動點擊率提升22%。
類似公司還包括:Generated Photos。
6)Persado:結合精準用戶畫像,實現個性化文本營銷
Persado 的平臺將營銷創(chuàng)意分解為六個關鍵要素:敘事、情感、描述、號召性用語、格式和文字定位。通過組合各類元素,該平臺能夠為每位客戶確定交流的個性化措辭。該平臺已被多家公司用于促銷電子郵件、社交媒體廣告、店內展示橫幅甚至廣播內容等,以提高品牌參與度和轉化率。
3、我國AIGC發(fā)展現狀
資料顯示,國內大廠百度、騰訊優(yōu)圖、阿里巴巴、快手、字節(jié)跳動、網易、商湯、美圖等都在AIGC領域有所投入,中國信通院也在2022年聯合京東探索研究院發(fā)布了AIGC白皮書,對行業(yè)進行了深入剖析和研究。
2022年11月9日,百度創(chuàng)始人兼首席執(zhí)行官李彥宏表示,過去一年無論是在技術層面還是商業(yè)應用層面,人工智能都有了巨大的進展,有些甚至是方向性的改變。其中人工智能技術方向性改變體現就是AIGC。
李彥宏判斷AIGC將迎來三個發(fā)展階段:
“助手階段”,AIGC輔助人類進行內容生產;
“協作階段”,AIGC以虛實并存的虛擬人形態(tài)出現,形成人機共生的局面;
“原創(chuàng)階段”,AIGC將獨立完成內容創(chuàng)作。
其他國內大廠中,騰訊打造的寫稿機器人“夢幻寫手”;阿里巴巴旗下的AI在線設計平臺Lubanner,幫助營銷人員生產Banner;字節(jié)跳動旗下的剪映以及快手云剪都能提供AI生成視頻;網易推出的一站式AI音樂創(chuàng)作平臺“網易天音”等等。
隨著AIGC的火熱,國內也涌現了一批成長迅速的創(chuàng)業(yè)公司,代表企業(yè)如下:
1)小冰科技
2021年完成 A 輪融資,該輪融資由高瓴領投,五源、Neumann、IDG、GGV 紀源資本及上輪投資人北極光與網易公司跟投。2022年完成10億元B輪融資,投資方尚未披露。
主營方向:小冰是全球領先的人工智能科技公司,旗下小冰框架是全球承載交互量最大的完備人工智能框架之一,在開放域對話、多模態(tài)交互、超級自然語 音、神經網絡渲染及內容生成領域居于全球領先。
AIGC 相關亮點:作為 “AI being” 派虛擬人。小冰的產品始終是人 + 交互 + 內容。具體包括虛擬人(夏語冰等 somebody instance、虛擬男友等 nobody instance 和國家隊人工智能裁判與教練系統(tǒng)觀君等在垂直場景中工作的虛擬人類)、音頻生成(主攻超級語言及歌聲,在線歌曲生成平臺與歌手 歌聲合成軟件 X studio)、視覺創(chuàng)造(畢業(yè)作品集《或然世界》、為國家紡織品開發(fā)中心、萬事利等數百家機構提供了圖案和紋樣設計)、文本創(chuàng)造(2017 年即推出小冰詩集)、虛擬社交、Game AI(Xiaoice Game Studio)等。
商業(yè)客戶已覆蓋金融、智能車機、零售、體育、紡織、地產、文旅等十多個垂直領域,并提出了以 ” 人力 ” 的邏輯去進行商業(yè)報價的虛擬人商業(yè)模式。
2)同伴客數據
2022年完成數千萬來自W&M的戰(zhàn)略融資。
主營方向:同伴客數據是一家致力于通過數字科技為人類釋放無限潛能的科技公司。核心產品是TBanic數字員工基礎平臺,集成了基于“DARD”技術(數據-Data、人工智能-AI、機器流程自動化-RPA、數字人-Digital Human)的數字員工開發(fā)套件,客戶可以根據不同的業(yè)務場景,構造出具備對應工作技能的數字員工。同伴客的解決方案覆蓋數字藍領、數字白領和數字金領三個層級,主要包含AIGC數字員工、數據洞察數字員工、RPA數字員工、金融交易數字員工、人工增強數字員工等相關產品。目前已服務于全球超過200家客戶,其中不乏世界500強企業(yè)、大型國央企和知名高校與科研院所。
AIGC相關亮點:以虛擬人數字員工的形式,為客戶直接提供功能強大的AIGC機器人,涵蓋了繪圖、文字撰寫、視頻處理等相關功能,同時集成PRA、數據處理和虛擬人等技術,可以為客戶提供完整的解決方案。目前同伴客的AIGC機器人作為教學儀器,在高校教育市場擁有數百家客戶沉淀和絕對的競爭優(yōu)勢,同時也在眾多世界500強企業(yè)和大型國央企中得到落地應用。
3)DeepMusic(靈動音科技)
2018年完成數千萬A輪融資,由TME 領投。
主營方向:公司致力于運用AI技術從作詞、作曲、編曲、演唱、混音等方面全方位降低音樂創(chuàng)作及制作門檻,為音樂行業(yè)提供新的產品體驗,提升效率。
AIGC相關亮點:產品包括針對視頻生成配樂的配樂貓、支持非音樂專業(yè)人員創(chuàng)作的口袋音樂、可AI生成歌詞的 LYRICA、AI作曲軟件LAZYCOMPOSER。目前已與國內多家音樂平臺廠商達成合作。其音樂標注團隊已形成了全球最精確的話語歌曲音樂信息庫。
4)倒映有聲
2021年完成Pre-A輪融資,投資機構為“中文在線”,溫石企業(yè)顧問集團擔任本輪融資獨家財務顧問。
主營方向:一家以技術為核心的創(chuàng)新型公司和無人驅動數字分身技術解決方案供應商,通過自研神經渲染技術和TTSA技術,實現基于文本實時生成高質量語音(音頻)和動畫(視頻),致力于成為AI數字人神經渲染引擎。
AIGC相關亮點:倒映有聲將其虛擬人的高自然度歸結于神經渲染(Neural Rendering)、TTSA(基于文本和語音合成實時生成音頻和視頻)、ETTS(富情感語音合成)、Digital Twin。通過神經渲染技術快速構建AI數字分身,通過語音+圖像生成技術,生成和驅動數字分身的唇形、表情、動作、肢體姿態(tài),創(chuàng)造表情自然、動作流暢、語音充滿情感的高擬真度數字分身IP。2021年3月倒映有聲和音頻客戶端「云聽」簽署戰(zhàn)略合作協議。
5)超參數
超參數科技宣布完成1億美元B輪融資,本輪融資由紅杉中國領投,老股東五源資本、高榕資本跟投。
主營方向:超參數科技是一家專注于AI領域的科技公司,致力于「打造有生命的AI」,創(chuàng)造一個10億人與100億AI共同生活的虛擬世界。超參數圍繞L1-L4技術路徑打造極致的AI Bot,逐步為廣泛用戶帶來全新的虛擬世界體驗。
AIGC相關亮點:超參數科技提供的AI bot支持玩家陪玩(3D生存游戲AI獵戶座α)、多人團隊競技(球球大作戰(zhàn))、非完美信息博弈AI(斗地主、德撲、麻將等)等。自有游戲AI平臺“Delta”采用全新的“AI+游戲”研發(fā)管線,為開發(fā)側和體驗側兩端帶來范式創(chuàng)新。
6)影譜科技
2018年完成D輪13.6億元融資,投資方包括商湯科技Sensetime、軟銀中國,東方明珠旗下產業(yè)投資基金、PAC、前海梧桐并購基金、朗盛資本等。
主營方向:影譜科技以人工智能視覺技術產業(yè)化為主要目標,是國內領先的智能影像生產技術提供商及應用方案提供商。公司專注于視覺內容的生產效率與呈現交互方式的技術研究,通過ACM(影像商業(yè)化引擎)、AGC(影像工業(yè)化引擎)和ADT(數字孿生引擎)三大引擎,面向媒體、文化、科教等多行業(yè)領域提供一站式的智能解決方案。
AIGC相關亮點:在視頻生成相關領域支持結構化視覺分析、影像自動合成技術(將視頻短片、圖片、音軌等按照規(guī)定效果批量化自動拼接)、智能視頻編輯(基于視頻中多模態(tài)信息的特征融合進行學習,按照氛圍、情緒等高級語義限定,對滿足條件片段進行檢測并合成)、視頻內容生產(對視頻中的鏡頭、元素和場景采用不同的生成方式,同時對組件的組合方式進行學習,實現視頻的自動化生產)、行為動作分析、場景信息恢復、跨模態(tài)轉換等。
第二章:AIGC產業(yè)發(fā)展分析
1、AIGC核心算法
AIGC 技術主要涉及兩個方面:自然語言處理 NLP 和 AIGC 生成算法。隨著 NLP(Natural Language Processing,自然語言處理)技術和擴散模型(Diffusion Model)的發(fā)展,AI不再僅作為內容創(chuàng)造的輔助工具,創(chuàng)造生成內容成為了可能。
近年來,AIGC的快速發(fā)展歸功于生成算法領域的技術積累,其中包含了:生成對抗網絡(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(Diffusion Model)??梢钥吹?,大模型、大數據、大算力是未來的發(fā)展趨勢。算法模型的突破是近年來AIGC得以快速突破的催化劑,最常用的兩個模式,即生成對抗網絡和擴散模型。
2014年,Ian J.Goodfellow 提出了GAN,是一種深度神經網絡架構,由一個生成網絡和一個判別網絡組成。生成網絡產生“假”數據,并試圖欺騙判別網絡;判別網絡對生成數據進行真?zhèn)舞b別,試圖正確識別所有“假”數據。在訓練迭代的過程中,兩個網絡持續(xù)地進化和對抗,直到達到平衡狀態(tài),判別網絡無法再識別“假”數據,訓練結束。
GAN被廣泛應用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構的人物、場景,模擬人臉老化,圖像風格變換,以及產生化學分子式等等。
優(yōu)點:能更好建模數據分布。無需利用馬爾科夫鏈反復采樣,無需在學習過程中進行推斷,沒有復雜的變分下界,避開近似計算棘手的概率的難題。
缺點:難訓練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實際訓練中很容易判別器收斂,生成器發(fā)散。兩者的訓練需要精心的設計??赡軙霈F模式缺失(Mode Collapse)問題。GANs 的學習過程可能出現模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續(xù)學習。
(AI繪圖的細節(jié)仍然非常粗糙)
擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia和 Google設法訓練大模型之后,它們已經引起了很多關注?;跀U散模型的示例架構包括 GLIDE,DALLE-2,Imagen和完全開源的穩(wěn)定擴散。擴散模型已經擁有了成為下一代圖像生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創(chuàng)造力。
擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期AIGC擁有了開放性的創(chuàng)造力。本質上,擴散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓練數據,然后通過反轉這個噪聲過程來學習恢復數據。訓練后,我們可以通過簡單地將隨機采樣的噪聲傳遞給學習的去噪過程來生成數據。
相比于其他模型,擴散模型的優(yōu)勢在于生成的圖像質量更高,且無需通過對抗性訓練,這使得其訓練的效率有所提升。同時,擴散模型還具有可擴展性和并行性。
高斯噪聲是一種概率密度函數符合正態(tài)分布的函數,當AIGC運用擴散模型來生成內容 的時候,是通過在一副純白的畫布(隨機白噪聲)上逐步去噪來生成最終的目標畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態(tài)分布函數的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個逐步縮小范圍的過程。這與人類的思維模式很類似。簡言之,在AI訓練階段,我們將數據集中上億組圖文對進行訓練,提取特征值;生產過程中,通過添加文字描述,引入不同的特征值進行去噪,從而生產一副AI理解下的內容作品。例如,在當我們在腦海中想象一個畫面的時候,比如:一只柯基通過一個小號玩火焰。我們的思維模式也是先有一只柯基,再去想象小號和火焰,最后將這些元素疊加在柯基身上。
簡述完原理以后,我們可以通過目前非常先進的AI圖像生成應用DALL-E2來舉例闡述 具體的工作過程:將文本提示輸入到一個經過訓練能夠將提示映射到表示空間的文本編碼器中;通過一個被稱為“先驗”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現。這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自于OpenAI的Clip模型,其通過4億組文字-圖片對進行訓練。當然,其中的模型訓練都是基于英文實現,語言的區(qū)別又會給AIGC帶來另一重挑戰(zhàn)。
除了上述提到的AIGC生成算法模型以外,超級計算機和算力這些硬件作為基礎設施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達A100構建的計算集群完成,而國內外的初創(chuàng)企業(yè)也會通過云實現。
2、AIGC數據與算力
數據、算力、算法是驅動AIGC發(fā)展的三駕馬車,要實現AIGC的發(fā)展,這三者缺一不可。目前,結合自然語言的大模型與數據集已成為 AIGC 發(fā)展的軟件基礎,OpenAI 的 Clip 模型基于4億組高質量的英文圖文對應數據訓練而成;算力即權力將在AIGC數字時代更加凸顯,Stable Diffusion目前依賴于4000個英偉達A100的GPU集群,運營成本超 5000萬美金。為了讓功能更加精確,未來還將更多地基于語種去開發(fā)垂直類的應用,便于更有目的性地為特定功能進行訓練。
然而,AIGC的算法、算力和數據,都需要企業(yè)投入大量的資金,這就導致AIGC初創(chuàng)企業(yè)的經營成本居高不下。以新晉獨角獸企業(yè)Stability AI為例,該公司為維護一個擁有4000塊英偉達A100 GPU組成的算力群,總計花費超5000萬美元。
較高的前期投入,要求AIGC企業(yè)用戶規(guī)模能夠迅速擴張。因為只有行業(yè)用戶規(guī)模達到一定體量,才能夠攤平成本,扭虧為盈。過去的經驗表明,要在短時間內實現用戶規(guī)模的快速增長,需要提供標準化的服務內容,畢竟標準的等于大眾的,也等于成規(guī)模的用戶需求滿足。
而且,AIGC自身的特點,其實也限制了服務標準化的進程。由于AIGC生成內容具有不穩(wěn)定性,內容質量層次不齊,無法形成統(tǒng)一的質量標準,一定程度上限制了用戶規(guī)模的擴張,也限制了AIGC企業(yè)的賺錢能力的提升。
不僅如此,由于AIGC賽道正處于摸索階段,公司戰(zhàn)略以完善技術水平、考察消費者需求為主,大部分技術沒有完善到足以實際運用到生產之中,而小部分相對成熟的應用,也為了吸引顧客,而處在免費試用的階段。這就意味著,AIGC技術本身缺乏變現能力。投入增多,而收入不夠,使得眾多AIGC公司處于虧損狀態(tài)。
并且,這種虧損狀態(tài),長期內,并不會因用戶規(guī)模的增多而得到改善。因為,一旦行業(yè)用戶規(guī)模達到一定體量,大廠們必然會加速入場,此時行業(yè)競爭加劇,一方面會促進企業(yè)增加成本投入;另一方面也會導致企業(yè)收入減少。那時,面對著AIGC有限的變現能力,加上持續(xù)不斷的成本投入,勢必對AIGC企業(yè)形成非常大的經營壓力。
第三章:AIGC應用場景分析
1、AIGC應用場景匯總
按照AIGC的發(fā)展邏輯,主要可以分為3個階段:一是AIGC內容生產技術完善階段,能夠實現文本、視頻、圖片生成以及三者的跨模態(tài)轉換;二是具有多模態(tài)生成技術的聚合應用——虛擬人;三是AIGC內容生態(tài)聚合體——元宇宙。
未來,AIGC將有望成為數字內容創(chuàng)新發(fā)展的新引擎。
1)AIGC能夠以優(yōu)于人類的制造能力和知識水平承擔信息挖掘、素材調用、復刻編輯等基礎性機械勞動,從技術層面實現以低邊際成本、高效率的方式滿足海量個性化需求。
2)AIGC能夠通過支持數字內容與其他產業(yè)的多維互動、融合滲透從而孕育新業(yè)態(tài)新模式。
3)助力“元宇宙”發(fā)展。通過AIGC加速復刻物理世界、進行無限內容創(chuàng)作,從而實現自發(fā)有機生長。
長期來看,AIGC與各行業(yè)的融合,有望創(chuàng)造更多的應用場景,大幅提高各行業(yè)的內容創(chuàng)作效率。
1)AIGC+傳媒:寫稿機器人、采訪助手、視頻字幕生成、語音播報、視頻錦集、人工智能合成主播。
2)AIGC+電商:商品3D模型、虛擬主播、虛擬貨場。
3)AIGC+影視:AI劇本創(chuàng)作、AI合成人臉和聲音、AI創(chuàng)作角色和場景、AI自動生成影視預告片。
4)AIGC+娛樂:AI換臉應用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視頻動畫。
5)AIGC+教育:AI合成虛擬教師、AI根據課本制作歷史人物形象、AI將2D課本轉換為3D。
6)AIGC+金融:通過AIGC實現金融資訊、產品介紹視頻內容的自動化生產,通過AIGC塑造虛擬數字人客服。
7)AIGC+醫(yī)療;AIGC為失聲者合成語言音頻、為殘疾人合成肢體投影、為心理疾病患者合成醫(yī)護陪伴。
8)AIGC+工業(yè):通過AIGC完成工程設計中重復的低層次任務,通過AIGC生成衍生設計,為工程師提供靈感。
(圖:PGC、UGC、AIGC對比)
2、AIGC商業(yè)模式分析
商業(yè)模式上看,目前AIGC企業(yè)主要有以下幾種商業(yè)模式:
1)作為底層平臺接入其他產品對外開放,按照數據請求量和實際計算量計算:GPT-3對外提供API接口,采用的四種模型分別采用不同的按量收費方式。
2)按產出內容量收費:包括DALL·E、Deep Dream Generator等AI圖像生成平臺大多按照圖像張數收費。
3)直接對外提供軟件:例如個性化營銷文本寫作工具AX Semantics則以約1900人民幣/月的價格對外出售,并以約4800歐元/月的價格提供支持定制的電子商務版本。大部分C端AGC工具則以約80人民幣/月的價格對外出售。
4)模型訓練費用:適用于NPC訓練等個性化定制需求較強的領域。
5)根據具體屬性收費:例如版權授予(支持短期使用權、長期使用權、排他性使用權和所有權多種合作模式,擁有設計圖案的版權)、是否支持商業(yè)用途(個人用途、企業(yè)使用、品牌使用等)、透明框架和分辨率等。
商業(yè)門檻來看,雖然AIGC是一個重技術的行業(yè),但是由于眾多開源平臺的存在,以及軟件技術的可復制性,單純的技術和算法,很難成為AIGC行業(yè)的主要競爭壁壘。AIGC相關企業(yè)如果想建立長久的競爭優(yōu)勢,還需要在一體化解決方案、行業(yè)深度綁定、業(yè)務閉環(huán)等領域不斷耕耘。應該說,技術是AIGC企業(yè)成功的必要條件,但不是充分條件,對于商業(yè)能力的把控,會是未來AIGC賽道中相關企業(yè)的競爭焦點。
1)打造一體化解決方案服務能力:AIGC本質上提供的是內容的生成工具,和傳統(tǒng)的內容輔助編輯邏輯是相同的。采集、生產、媒資管理、分發(fā)消費等視頻整個生命周期,一般都需要覆蓋內容生成的全生命周期。
2)與行業(yè)的深度綁定關系:通過和行業(yè)形成深度綁定關系,接入相關平臺或底層系統(tǒng)的,與原來的內容載體建立良好的合作關系,除去說明場景可行性外,還需要強調對方在基礎架構上的配合意愿。
3)構建業(yè)務閉環(huán):創(chuàng)作型的工具如何得到反饋的手段,需要新的模式形成閉環(huán)。需要從“拼接式”(需要大量的人工標注數據,只能針對具體任務,不會自我成長)到“進化式”(創(chuàng)造特定條件和核心能力,使之能夠完成通用任務并自我成長),并與用戶增加對話輪次、建立情感鏈接。
第四章:AIGC發(fā)展預測
1、AIGC發(fā)展前景
目前,科技圈和資本圈普遍對于AIGC的發(fā)展抱有很大的期望,AIGC有望接棒元宇宙,成為2023年科技圈的熱點。
2022年7月,百度世界大會上李彥宏這樣預言到:“未來十年,AIGC(人工智能自主生產內容)將顛覆現有內容生產模式??梢詫崿F以十分之一的成本,以百倍千倍的生產速度,去生成AI原創(chuàng)內容?!?/p>
2022年9月,紅杉資本聯合GPT-3,發(fā)布了一篇名為《生成式AI:一個創(chuàng)造性的新世界》的文章,并且立刻引爆了AIGC賽道?!叭藗兊膲粝耄荷墒紸I將創(chuàng)造和知識工作的編輯成本降至零,生產巨大的勞動生產率和經濟價值,以及相應的市值?!卑凑掌渲械睦斫?,AI能夠讓人效突破現在技術條件的天花板,未來企業(yè)的增長將不再受制于人力和成本,企業(yè)的經營效率也會隨之發(fā)生質變。
在移動互聯網時代,關于未來的暢想,已經進行過很多次,從當初紅極一時的元宇宙和Web 3,就像給大眾營造的一場科技幻想,跳脫出時間和空間的維度,充斥著對未來的無限期待,這也是很多極客的畢生夙愿。劇本是如此的相似,只不過這次的主角換成了AIGC。伴隨著文本、圖片、視頻以及三者跨模態(tài)相互轉化方面的技術不斷突破,我們所熟悉的AI行業(yè),正意欲重構人類生產力和生產關系的變革,這究竟是一時曇花,還是一片新的藍海,還有待市場和時間的檢驗。
現在的AIGC仍處于早期摸索期,發(fā)展的有限程度導致了目前應用場景的有限。也許未來技術的突破,能夠不斷擴展AIGC的應用場景,但短期內各企業(yè)能做的,只是優(yōu)化模型,從而提高其與應用場景的適配度。
公開數據顯示,在未來2-3年間,AIGC的初創(chuàng)公司和商業(yè)落地方案將持續(xù)增加;到2030年,AIGC市場規(guī)?;驅⒊^萬億人民幣。
從PGC到UGC再到 AIGC,AIGC能讓人類突破內容生產力枷鎖,高效率生成高質量內容,讓人類進入到真正的元宇宙之中。若要AIGC能夠滿足元宇宙的需求,獨立完成高質量、高精度的內容,AIGC技術層面還需要一定的發(fā)展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術、AIGC生成算法模型和數據集,硬件層面主要是算力、通信網絡。
從業(yè)務層面看,結合國內外發(fā)展情況,目前在AIGC的知識產權歸屬方面尚有法律空缺,且創(chuàng)作倫理問題也未得到有效解決,因此無論是技術還是商業(yè)層面,高質、干凈的數據集對于模型訓練及內容生成均有至關重要的影響。同時,隨著AIGC逐步落地,其算力需求將大增,未來相關企業(yè)除用云計算之外,或組建自有算力集群,考慮到英偉達A100、 H100出口受限,相關國產算力芯片將有機會獲得增量市場。
從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3 均描述了數字經濟時代中宏大的應用場景,而去年被資本市場關注的虛擬人、NFT等只是其中的具體應用之一。未來,AIGC可能將是推動數字經濟從Web2向 Web3升級的重要生產力工具:一方面,其對現有的殺手級應用——短視頻、游戲等具有顛覆式影響,或進一步擴大內容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3 開放、共建的價值觀下,UGC、AIGC的內容會更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前AIGC已成為硅谷最新熱門方向,國內一級市場、互聯網大廠等對AIGC應用關注度也在快速提升中。
2、AIGC待解決問題
盡管AIGC發(fā)展前景廣闊,但也存在著很多難以解決的問題,影響了其商業(yè)化的進程。
1)技術不成熟
技術上來看,雖然當前生成的圖片、文字已經可以用以商業(yè)用途,但還存在一些問題使得無法滿足較高的質量要求。在不太關注細節(jié)的大場景圖片生成中,AIGC的表現較好。但對于比較具體和細節(jié)的內容,生成的效果不盡如人意。這主要是由于自然語義的理解在處理一些空間關系上還存在一定的誤差,同時業(yè)內大部分機構都在采用開源的 OpenAI 的 Clip 模型。其函數是開源的,但訓練的數據集是封閉的,數據集的質量、合規(guī)性、風格偏向都會決定生成的內容質量。
2)版權不清晰
AIGC本質上是機器學習,因而無法避免使用大量的數據集執(zhí)行訓練,在這之中確實存在損害圖片版權者的利益。對于藝術家來說,雖然認為這些平臺侵害了自己的權益,但是現在仍沒有完善的法律規(guī)定此類侵權行為,甚至在某些法律條文中,這種行為是合法的。
一方面,AIGC難以被稱為“作者”。著作權法一般規(guī)定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認可的權利主體,因此不能成為著作權的主體。但AIGC應用對生成的圖片版權問題持有不同觀點,圖片屬于平臺、完全開源還是生成者,目前尚未形成統(tǒng)一意見。
另一方面,AIGC產生的“作品”尚存爭議。傳統(tǒng)意義上的作品是指文學、藝術和科學領域內具有獨創(chuàng)性并能以某種有形形式復制的智力成果。AIGC的作品具有較強的隨機性和算法主導性,能夠準確證明AIGC作品侵權的可能性較低。同時,AIGC是否具有獨創(chuàng)性目前難以一概而論,個案差異較大。
即使現在把自己的作品從數據集中刪除也無法阻止自己風格作品的生成,首先,AI 模型已經過訓練,對應風格已經掌握。而且,由于OpenAI的CLIP模型(于訓練Stable Diffusion 以理解文字和圖像之間的聯系),用戶仍然可以調用特定的藝術風格。
對于AI項目方來說,讓數據集每張圖片都得到授權是不現實的,如果此類法案通過,那么 AI 行業(yè)的發(fā)展將受到很大的阻礙,或許是滅頂之災。
3)壁壘不夠高
AIGC 產業(yè)鏈涉及環(huán)節(jié)眾多。上游生成算法的環(huán)節(jié),存在著一定程度上改進國外開源模型的情況。渲染、模型訓練等環(huán)節(jié),也大多依賴國外GPU。
目前各種各樣的 AIGC 范式,大都建立在國外的論文、開源模型上。這些建立在開源模型上的AIGC并沒有核心技術壁壘。即便辛苦做出的小幅度優(yōu)化,往往會被開源方發(fā)布的新版本所抹平。
同時在應用場景上,目前AIGC只是工具鏈上的某個環(huán)節(jié)的增強,初創(chuàng)公司很難與完整工具鏈和生態(tài)的企業(yè)競爭。如國內雖然有大量項目對標新一代的Figma、Canva或者短視頻創(chuàng)作工具,但是Figma已經集成了Stable Diffusion的生成模型,而字節(jié)跳動這樣的企業(yè)在短視頻AIGC方面也有深厚的積累和創(chuàng)新。即使游戲領域,一個游戲引擎是一套非常復雜的工具鏈體系,也不僅僅是個渲染器。
目前,國內正在朝著自主可控的方向發(fā)展,這要求AIGC領域的創(chuàng)新型企業(yè)在加強原創(chuàng)性研究的同時,盡快將技術轉化為知識產權,形成行業(yè)壁壘與競爭力。
4)商業(yè)不清晰
盡管AIGC為人類描繪了一個美好的未來,但是其商業(yè)路徑并不足夠清晰,客戶的付費意愿也不是非常明確。目前各家公司為了搶占用戶,很多都采用了免費體驗的模式,而目前AIGC提供的服務,不管是繪圖、文字還是視頻,都很難精準的滿足客戶的需求,更多的是為專業(yè)設計人員提供思路和參考價值,其實際商業(yè)化價值仍然讓客戶抱有懷疑。
同時,最為一項工具屬性較強的技術,AIGC尚未出現UGC時代的大平臺、殺手級應用和現象級項目。AIGC雖然得到了資本的青睞,但商業(yè)模式清晰、能夠獲得持續(xù)穩(wěn)定現金流、競爭壁壘較強的新興公司尚沒有出現,更多的是大公司在新技術領域不計成本的前沿布局。因此,AIGC技術發(fā)展和商業(yè)化進程不及預期的風險仍然較大。
參考資料:
《AIGC的十大前沿創(chuàng)新》 孫思明
《國內外最值得關注的AIGC機構》量子位
《AIGC:Web3時代的生產力工具》宋嘉吉、金郁欣
《突然爆火的AIGC究竟是不是泡沫?》顧煜
《AIGC產業(yè)鏈全梳理》楊江凱
《人工智能生成內容(AIGC)白皮書(2022年)》中國信通院