論文標(biāo)題: PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction
(中文標(biāo)題:PRE-MAP:用于高分辨率多屬性注視點(diǎn)預(yù)測(cè)的個(gè)性化眼動(dòng)追蹤多模態(tài)大語(yǔ)言模型)
論文作者:吳寒冰*、姜平*、蘇安煬*、趙晨旭、傅天宇、吳明輝、譚北平、李慧盈(*為共同第一作者)
研究成果簡(jiǎn)述:
1. 直擊行業(yè)核心痛點(diǎn)
在當(dāng)今的數(shù)字廣告領(lǐng)域,理解消費(fèi)者的目光焦點(diǎn)至關(guān)重要。然而,不同背景的觀眾(如年齡、性別各異)在觀看同一視頻廣告時(shí),其注意力分布也大相徑庭,傳統(tǒng)技術(shù)卻無(wú)法捕捉這種個(gè)性化差異。傳統(tǒng)的顯著性預(yù)測(cè)模型通常采用分割方法,依賴于降采樣的低分辨率圖像來(lái)生成顯著性熱圖,隨后將其放大到原生分辨率,這限制了它們捕捉個(gè)性化注意力模式的能力。
2. 構(gòu)建高質(zhì)量數(shù)據(jù)底座
為攻克這一難題,研究團(tuán)隊(duì)開(kāi)創(chuàng)性地建立了業(yè)界領(lǐng)先的大規(guī)模個(gè)性化注視行為數(shù)據(jù)集(SPA-ADV),首次記錄了超過(guò)4500名不同年齡與性別背景用戶的真實(shí)視覺(jué)行為。該數(shù)據(jù)集提供精確的個(gè)體級(jí)注視點(diǎn)坐標(biāo),為個(gè)性化顯著性建模提供了高質(zhì)量的基準(zhǔn)數(shù)據(jù)支持。
3. 研發(fā)高精度預(yù)測(cè)模型
基于此數(shù)據(jù)集,團(tuán)隊(duì)研發(fā)了PRE-MAP創(chuàng)新AI預(yù)測(cè)模型。該模型能結(jié)合用戶的個(gè)人特征,利用最前沿的多模態(tài)大模型技術(shù),增強(qiáng)模型的泛化能力和個(gè)性化預(yù)測(cè)效果,精準(zhǔn)預(yù)測(cè)出“某一類人會(huì)看哪里”。有效解決現(xiàn)有AI模型預(yù)測(cè)不準(zhǔn)、難以聚焦個(gè)性化熱點(diǎn)的問(wèn)題,幫助品牌方和廣告商更科學(xué)地優(yōu)化廣告創(chuàng)意、評(píng)估投放效果,實(shí)現(xiàn)真正的“精準(zhǔn)觸達(dá)”。
明略的多模態(tài)實(shí)踐:從腦電到眼動(dòng),補(bǔ)齊廣告預(yù)測(cè)模型的關(guān)鍵拼圖
此次成果并非孤立的突破,而是明略科技在多模態(tài)領(lǐng)域長(zhǎng)期且深度耕耘的必然結(jié)果,彰顯了公司在前沿AI技術(shù)探索與大模型應(yīng)用落地上的前瞻性布局:
早在2023年,明略科技率先成為國(guó)內(nèi)首家基于多模態(tài)大語(yǔ)言模型(MLLM)實(shí)現(xiàn)智能社交媒體內(nèi)容分析和策略生成的企業(yè),首度將多模態(tài)大語(yǔ)言模型(MLLM)應(yīng)用于識(shí)別并預(yù)測(cè)能帶來(lái)最佳營(yíng)銷效果的多樣化內(nèi)容類型,開(kāi)辟了廣告領(lǐng)域全新的多模態(tài)技術(shù)應(yīng)用賽道。
2024年,明略科技推出超圖多模態(tài)大型語(yǔ)言模型(HMLLM),進(jìn)一步整合了腦電等非標(biāo)模態(tài)數(shù)據(jù),支持企業(yè)對(duì)廣告素材中的實(shí)體、情緒、效果、場(chǎng)景及受眾等多樣化元素進(jìn)行深度分析,從而提升營(yíng)銷效果,生成預(yù)測(cè)效果良好的有效營(yíng)銷內(nèi)容,并為企業(yè)視頻廣告提供多維度優(yōu)化建議。超圖多模態(tài)大型語(yǔ)言模型(HMLLM)的相關(guān)成果曾榮獲ACM MM 2024最佳論文提名。
今年6月,基于自研的超圖多模態(tài)大型語(yǔ)言模型(HMLLM),協(xié)同混合專家(MoE)模型,明略科技再推創(chuàng)新成果——AI驅(qū)動(dòng)的全球化廣告測(cè)試及優(yōu)化平臺(tái)AdEff。該平臺(tái)專為全球廣告創(chuàng)意測(cè)量打造,可快速、準(zhǔn)確預(yù)測(cè)消費(fèi)者對(duì)廣告的主觀反應(yīng)和廣告效果,并給出優(yōu)化建議。在測(cè)試效率大幅提升的同時(shí),顯著降低廣告測(cè)試成本,讓企業(yè)有機(jī)會(huì)對(duì)每一支廣告進(jìn)行測(cè)試,在 “創(chuàng)意感性” 與 “商業(yè)理性” 之間找到平衡。
直至7月本次研究成果被接收,標(biāo)志著明略科技在多模態(tài)學(xué)習(xí)這一人工智能前沿方向取得了又一突破性進(jìn)展,補(bǔ)齊了廣告預(yù)測(cè)模型中“用戶個(gè)性化視點(diǎn)追蹤”這一關(guān)鍵拼圖。它既是推動(dòng)廣告預(yù)測(cè)模型高質(zhì)量發(fā)展的重要一環(huán),也昭示著機(jī)器理解人類感知的精度即將邁上新的臺(tái)階。
在數(shù)字化內(nèi)容日益碎片化的今天,AI驅(qū)動(dòng)的科學(xué)預(yù)測(cè)已成為提升內(nèi)容觸達(dá)效率的關(guān)鍵引擎。明略科技在多模態(tài)學(xué)習(xí)領(lǐng)域的系統(tǒng)性實(shí)踐,將在品效提升、成本優(yōu)化和內(nèi)容創(chuàng)新層面展現(xiàn)出廣闊的應(yīng)用價(jià)值。
立足于此,明略科技的視野不止于多模態(tài)領(lǐng)域的深耕。未來(lái),公司將會(huì)面向更廣闊的AI大模型及Agent技術(shù)領(lǐng)域持續(xù)探索,致力于把前沿科研成果轉(zhuǎn)化為強(qiáng)大的產(chǎn)業(yè)動(dòng)能,驅(qū)動(dòng)廣告營(yíng)銷乃至更多行業(yè)的智能化升級(jí),為構(gòu)建高效、智能的技術(shù)生態(tài)貢獻(xiàn)力量。