明明聽(tīng)上去是:Send a greeting email to Tom?
但經(jīng)過(guò)語(yǔ)音識(shí)別系統(tǒng)之后的輸出竟然是“Transfer one million dollars to Jerry.”
人們不禁靈魂發(fā)問(wèn)語(yǔ)音識(shí)別究竟還能否被信任?
不可否認(rèn),這種安全隱患正逐漸成為限制語(yǔ)音識(shí)別系統(tǒng)大規(guī)模應(yīng)用的關(guān)鍵因素之一,所以研究如何設(shè)計(jì)高效的攻擊方案發(fā)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)的弱點(diǎn)和漏洞,進(jìn)而緩解消除上述語(yǔ)音安全隱患,已成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的熱點(diǎn)問(wèn)題。
基于此,火山語(yǔ)音經(jīng)文獻(xiàn)調(diào)研發(fā)現(xiàn):現(xiàn)有的語(yǔ)音攻擊主要源于一種良性語(yǔ)音依賴假設(shè)(上述圖a),即Audio dependent attack,這種假設(shè)要求對(duì)抗語(yǔ)音樣本(Adversarial audio)是基于已有的干凈語(yǔ)音(Benign audio)上添加擾動(dòng)產(chǎn)生。但在現(xiàn)實(shí)場(chǎng)景中,這種干凈語(yǔ)音有可能不存在(比方說(shuō),說(shuō)話人可能根本沒(méi)有發(fā)出聲音)或者無(wú)法包含特定的語(yǔ)義信息(例如,說(shuō)話人在交談中沒(méi)有說(shuō)出某句話),如果遭遇上述情況,現(xiàn)有的方案將難以被應(yīng)用:對(duì)已有干凈語(yǔ)音的依賴性極大限制了語(yǔ)音攻擊的廣泛性,造成了判斷的不準(zhǔn)確。
對(duì)此火山語(yǔ)音團(tuán)隊(duì)提出了一種全新的“無(wú)中生有式”對(duì)抗語(yǔ)音攻擊方案(上述圖b),所謂“無(wú)中生有”是指不再依賴已有的一段干凈語(yǔ)音,而是采用語(yǔ)音合成模型直接生成包含特定語(yǔ)義信息的語(yǔ)音對(duì)抗樣本,避免對(duì)干凈語(yǔ)音(Benign audio)的依賴,改變過(guò)去通過(guò)“已有”來(lái)判斷的思路,進(jìn)而降低安全漏洞的誤判率。目前該方案的介紹論文(https://dl.acm.org/doi/10.1145/3534678.3539268)已被KDD 2022接收并發(fā)表。
方法概述
如圖所示,火山語(yǔ)音團(tuán)隊(duì)提出的Speech Synthesising Attack (SSA),可以合成文首所示包含“Send a greeting email to Tom”的語(yǔ)音,同時(shí)欺騙ASR系統(tǒng)翻譯為欺騙目標(biāo)“Transfer one million dollars to Jerry”。如果要實(shí)現(xiàn)這樣一個(gè)挑戰(zhàn)性任務(wù),兩個(gè)重要的條件需要同時(shí)被考慮到,分別是:ASR系統(tǒng)需要最終轉(zhuǎn)錄成任意設(shè)定的欺騙目標(biāo),以及合成語(yǔ)音需要足夠自然,讓人類(lèi)無(wú)法輕易覺(jué)察到該語(yǔ)音為對(duì)抗攻擊樣本。
為此團(tuán)隊(duì)引入基于Conditional Variational Auto-Encoder的VITS模型作為語(yǔ)音合成模塊,通過(guò)優(yōu)化Audio Style Vector z從而達(dá)成以上兩個(gè)重要前提,具體的loss如公式所示:
為達(dá)成條件一,團(tuán)隊(duì)使用Connectionist Temporal Classification (CTC) loss來(lái)迫使ASR系統(tǒng)輸出設(shè)定的目標(biāo)文本(target text)。為達(dá)成條件二,考慮到VITS模型訓(xùn)練時(shí)z服從標(biāo)準(zhǔn)高斯分布,作者對(duì)z做出如下約束:
為了使對(duì)抗語(yǔ)音樣本合成更加高效,火山語(yǔ)音團(tuán)隊(duì)還提出了一種Adaptive Sign Gradient Descent的優(yōu)化策略,整體算法流程如下圖所示:
實(shí)驗(yàn)結(jié)果分析
火山語(yǔ)音團(tuán)隊(duì)在Audio Mnist、CommonVoice以及LibriSpeech三個(gè)數(shù)據(jù)集上分別對(duì)算法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果(如下表所示)顯示:相比之前的語(yǔ)音對(duì)抗攻擊算法,新范式在攻擊成功率(Success rate) 上表現(xiàn)出顯著優(yōu)勢(shì),已經(jīng)達(dá)到過(guò)去方法的兩倍左右。
同時(shí)團(tuán)隊(duì)還分析了此種辦法帶來(lái)優(yōu)勢(shì)的原因,圖b為傳統(tǒng)方法在一段干凈語(yǔ)音(圖a)上加載噪聲的攻擊方式??梢钥闯觯肼暤募釉胧芟抻谠颊Z(yǔ)音波形,但基于SSA產(chǎn)生的語(yǔ)音對(duì)抗樣本,雖然包含的語(yǔ)義信息與圖a&b一致,但對(duì)比之下波形差異很大,這說(shuō)明SSA在產(chǎn)生對(duì)抗語(yǔ)音樣本時(shí)相較于已有方法,能夠更加直觀發(fā)現(xiàn)安全漏洞不易被誤導(dǎo),預(yù)期將會(huì)成為一種發(fā)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)安全漏洞的方案被廣泛采用。
除上述論文外,火山語(yǔ)音團(tuán)隊(duì)推出的另外一篇論文“重要性優(yōu)先的策略蒸餾”(Importance Prioritized Policy Distillation)也成功被KDD 2022接收并發(fā)表。
論文地址: https://dl.acm.org/doi/10.1145/3534678.3539266
該論文主要解決了強(qiáng)化學(xué)習(xí)模型蒸餾過(guò)程中Data bias問(wèn)題。在傳統(tǒng)的策略蒸餾(Policy distillation)方法中,每一個(gè)Frame(State-Action pair, 狀態(tài)&動(dòng)作組合)對(duì)于學(xué)生策略(Student policy)的重要性在訓(xùn)練中是被假設(shè)為均勻的。然而在強(qiáng)化學(xué)習(xí)任務(wù)中,每個(gè)Frame上的Action選擇實(shí)際上是對(duì)應(yīng)著不一樣的獎(jiǎng)勵(lì)(Reward)。
為了自適應(yīng)的根據(jù)Reward收益進(jìn)行Policy Distillation訓(xùn)練,火山語(yǔ)音團(tuán)隊(duì)提出了一種基于香農(nóng)熵(Shannon Entropy)對(duì)強(qiáng)化學(xué)習(xí)任務(wù)Frame importance進(jìn)行估計(jì)的方法,并基于Atari游戲任務(wù)驗(yàn)證了該方法在策略蒸餾以及壓縮(Policy compression)任務(wù)上的有效性。這種基于重要性優(yōu)先的策略蒸餾方法將會(huì)更好地服務(wù)于強(qiáng)化學(xué)習(xí)模型在部署時(shí)的模型壓縮任務(wù),從而助力在各個(gè)強(qiáng)化學(xué)習(xí)場(chǎng)景下的實(shí)際落地。
火山語(yǔ)音,作為字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì),長(zhǎng)期以來(lái)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景,提供全球領(lǐng)先的語(yǔ)音AI技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,多篇論文入選各類(lèi)AI 頂級(jí)會(huì)議,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款產(chǎn)品上,并通過(guò)火山引擎開(kāi)放給外部企業(yè)。