該數據集解決了以往金融領域Deepfake檢測模型無法大規(guī)模訓練,無法在真實環(huán)境中測評的問題,并且從多模態(tài)分析角度促進了傳統(tǒng)檢測模型的發(fā)展。目前該數據集已經成為螞蟻數科反深偽產品 ZOLOZ Deeper 對外服務客戶的關鍵能力。

據了解,螞蟻數科使用先進的多達 81 種 Deepfake 技術生成高質量的合成圖像,覆蓋了多種偽造技術類型、復雜光照條件、背景環(huán)境和面部表情,以模擬復雜逼真的真實世界攻擊環(huán)境。除了靜態(tài)圖像外,還收集并生成了大量包含聲音的視頻數據,包括100多種偽造技術類型,涵蓋不同語種、口音和背景噪音,確保數據集的多樣性和復雜性。

在數據預處理和標注階段,螞蟻數科對收集到的數據進行清洗和預處理,確保數據質量。通過專家團隊對數據進行標注,明確每張圖像或每個視頻是否為Deepfake生成的內容,同時保證偽造痕跡的最小化,達到高度逼真的效果。此前,螞蟻數科發(fā)布了AI數據合成與生產平臺,在數據標注層面實現(xiàn)了 “AI 主導”,標注模型依賴人工標注量降低了 70%以上。

此外,螞蟻數科在 2024 外灘大會發(fā)起了一場 Deepfake 攻防挑戰(zhàn)賽,將Deepfake數據集作為比賽的基礎訓練和測試數據,吸引到了全球 26 個國家和地區(qū),2200 多名選手報名參賽。通過大賽選手貢獻的算法方案,Deepfake 數據集的攻擊質量和檢測難度得到了有效驗證和評估。

隨著人工智能技術的發(fā)展,Deepfake技術也在迅速進步。這種技術利用深度學習算法,可以對視頻中的人臉進行逼真的替換。盡管Deepfake在娛樂和傳媒等領域有著積極的應用,但在金融領域,特別是身份驗證和交易驗證環(huán)節(jié),Deepfake技術帶來了新的風險。金融機構的身份驗證系統(tǒng)往往依賴于生物識別技術,如人臉識別。一旦這些系統(tǒng)被Deepfake技術所欺騙,可能導致嚴重的金融欺詐。

鑒于此,開發(fā)針對Deepfake攻擊的檢測系統(tǒng)在金融領域是十分必要的,但是強大的Deepfake檢測防御模型需要高質量符合真實世界環(huán)境的人臉Deepfake數據集,所以如何構建模擬真實世界的數據集以及如何驗證其有效性是緊迫的問題。

分享到

xiesc

相關推薦