在字節(jié)跳動的推薦系統(tǒng)實(shí)踐中,A/B實(shí)驗(yàn)在內(nèi)容側(cè)可以進(jìn)行內(nèi)容池優(yōu)化、內(nèi)容打標(biāo)優(yōu)化、視頻封面模型的優(yōu)化;用戶側(cè)(指產(chǎn)品的用戶應(yīng)用方面)可以通過A/B實(shí)驗(yàn)實(shí)現(xiàn)功能優(yōu)化、性能優(yōu)化、UI改進(jìn)等;而在推薦系統(tǒng)方面,可以使用A/B實(shí)驗(yàn)的維度更多,例如多路召回優(yōu)化、粗排和精排模型迭代升級優(yōu)化、模型多目標(biāo)融合優(yōu)化、重排多樣性/興趣探索優(yōu)化、廣告收入優(yōu)化等等,可以說,在推薦系統(tǒng)中,萬物皆可A/B實(shí)驗(yàn)。

需要指出的是,在進(jìn)行推薦系統(tǒng)內(nèi)容側(cè)A/B實(shí)驗(yàn)時,例如信息流產(chǎn)品可能會做作者發(fā)布視頻獎勵、視頻清晰度調(diào)整等,改變的是內(nèi)容側(cè)的屬性,但業(yè)務(wù)中通常觀察的是大盤用戶側(cè)的指標(biāo)。在進(jìn)行這類實(shí)驗(yàn)時,注意轉(zhuǎn)化為用戶側(cè)實(shí)驗(yàn)并輔助觀測內(nèi)容側(cè)指標(biāo)來評估,權(quán)衡用戶側(cè)和內(nèi)容側(cè)的綜合收益后再決策是否上線。以視頻帶貨推薦為例,商家分潤規(guī)則調(diào)整僅對實(shí)驗(yàn)用戶生效,通過對比實(shí)驗(yàn)組與對照組的指標(biāo)差異評估對大盤的影響的同時,可以創(chuàng)建并觀察商家入駐率等內(nèi)容側(cè)指標(biāo)的變化。在大盤收入指標(biāo)不變、商家入駐率指標(biāo)有提升,甚至大盤收入指標(biāo)微跌、商家入駐率顯著提升的情況下,都可以發(fā)布上線。

另一個注意點(diǎn)是,A/B實(shí)驗(yàn)上線后,業(yè)務(wù)會頻繁地查看分析實(shí)驗(yàn)指標(biāo)。有的實(shí)驗(yàn)在開啟后前幾天可能出現(xiàn)指標(biāo)下跌,這種情況下不建議立即關(guān)閉實(shí)驗(yàn),因?yàn)樵趯?shí)際實(shí)踐中,遇到過很多起初指標(biāo)下跌、后續(xù)慢慢回漲的情況,比如在一些信息流平臺的內(nèi)容的多樣性策略實(shí)驗(yàn)中,當(dāng)增強(qiáng)興趣探索后,短期可能會因?yàn)樘剿鞫霈F(xiàn)用戶不感興趣的內(nèi)容變多,導(dǎo)致消費(fèi)時長下跌;但從長期來看。探索到更多用戶興趣后,用戶黏性更強(qiáng),用戶消費(fèi)時長也會慢慢回漲,且更有益于平臺生態(tài)。因此在面對實(shí)驗(yàn)開始指標(biāo)下跌的情況,一般會建議繼續(xù)實(shí)驗(yàn)至少一周以上,覆蓋觀察一個完整周后再進(jìn)行評估會更加準(zhǔn)確。

在查看指標(biāo)時,企業(yè)可以多關(guān)注實(shí)驗(yàn)指標(biāo)下鉆分析結(jié)果,例如關(guān)注不同性別、不同年齡層用戶的指標(biāo)變化,有的產(chǎn)品也會關(guān)注不同活躍度用戶、特別是新用戶和低活用戶的指標(biāo)變化趨勢,因?yàn)檫@類用戶更決定了產(chǎn)品未來的增長。在DataTester中,可以借助用戶屬性過濾功能,查看指標(biāo)的下鉆分析數(shù)據(jù)。

火山引擎DataTester作為火山引擎數(shù)智平臺VeDI旗下的核心產(chǎn)品,源于字節(jié)跳動長期的技術(shù)和業(yè)務(wù)沉淀。目前,DataTester已經(jīng)服務(wù)了包括美的、華泰證券、博西家電、樂刻健身等知名品牌在內(nèi)的上百家企業(yè)。這些企業(yè)通過不斷進(jìn)行的A/B測試和優(yōu)化迭代,提升產(chǎn)品與服務(wù)質(zhì)量,從而實(shí)現(xiàn)業(yè)務(wù)持續(xù)的優(yōu)化和增長。

分享到

xiesc

相關(guān)推薦