作為全球數(shù)據(jù)挖掘領(lǐng)域最有影響力的賽事,KDD Cup比賽由ACM協(xié)會(huì)的國(guó)際頂級(jí)會(huì)議SIGKDD舉辦,自1997年以來(lái)每年舉辦一次。該比賽一直以來(lái)都強(qiáng)調(diào)在實(shí)際場(chǎng)景中的應(yīng)用性,今年的賽題是主辦方提供中國(guó)北京和英國(guó)倫敦的天氣數(shù)據(jù),比賽選手需要以此來(lái)預(yù)測(cè)未來(lái)48小時(shí)內(nèi)PM2.5\PM10\O3濃度,賽題本身對(duì)應(yīng)對(duì)惡劣環(huán)境、改善人類(lèi)生存有著重要意義。

值得一提的是,胡可就職于阿里媽媽搜索直通車(chē)算法團(tuán)隊(duì),他主要的工作內(nèi)容是做廣告排序算法,如應(yīng)用深度學(xué)習(xí)模型解決業(yè)務(wù)問(wèn)題,團(tuán)隊(duì)也在應(yīng)用并優(yōu)化多種深度學(xué)習(xí)模型,其日常工作中積累的深度學(xué)習(xí)經(jīng)驗(yàn)在比賽中起到了關(guān)鍵作用。

斬獲三項(xiàng)大獎(jiǎng)的秘密:空氣預(yù)報(bào)特征+深度學(xué)習(xí)模型解決空氣預(yù)測(cè)難題

與往年只有最終成績(jī)獎(jiǎng)項(xiàng)不同,KDD Cup 2018計(jì)入了比賽過(guò)程中的成績(jī)并設(shè)立了三項(xiàng)大獎(jiǎng)——“The General Track”、“最后10天專(zhuān)項(xiàng)獎(jiǎng)”、“最佳長(zhǎng)期預(yù)測(cè)獎(jiǎng)”,從三個(gè)維度來(lái)獎(jiǎng)勵(lì)比賽中表現(xiàn)突出的隊(duì)伍。而“getmax”也因全面而突出的表現(xiàn),從4000多個(gè)參賽隊(duì)伍中脫穎而出,成為唯一一個(gè)斬獲三項(xiàng)大獎(jiǎng)的隊(duì)伍,分別取得一項(xiàng)亞軍、兩項(xiàng)冠軍的成績(jī)。

本屆賽題十分獨(dú)特,空氣質(zhì)量預(yù)測(cè)不僅具有規(guī)律性弱、不穩(wěn)定、易突變的特點(diǎn),并且因?yàn)橐A(yù)測(cè)未來(lái)48小時(shí)中的每個(gè)小時(shí),以及北京/倫敦城市內(nèi)幾十個(gè)預(yù)測(cè)地點(diǎn),建模時(shí)間序列以及地點(diǎn)拓?fù)潢P(guān)系給機(jī)器學(xué)習(xí)模型帶來(lái)挑戰(zhàn)。

成績(jī)來(lái)自于特征與模型兩方面的優(yōu)化

特征方面:

發(fā)現(xiàn)風(fēng)速和風(fēng)向是長(zhǎng)期預(yù)測(cè)與突變預(yù)測(cè)的關(guān)鍵,所以在比賽中在時(shí)間與空間維度細(xì)化了天氣預(yù)報(bào)的特征,并且運(yùn)用噪音處理與分箱平滑、以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整解決天氣預(yù)報(bào)訓(xùn)練數(shù)據(jù)缺失引起的不一致問(wèn)題。

模型方面:

除運(yùn)用細(xì)粒度特征工程的樹(shù)模型外,也運(yùn)用深度學(xué)習(xí)模型進(jìn)行相對(duì)自動(dòng)的特征間以及序列間關(guān)系挖掘。并且針對(duì)長(zhǎng)時(shí)間序列問(wèn)題的特點(diǎn),對(duì)DNN網(wǎng)絡(luò)與RNN網(wǎng)絡(luò)分別進(jìn)行了優(yōu)化調(diào)整,解決了序列間預(yù)測(cè)值接近、長(zhǎng)序列預(yù)測(cè)值不穩(wěn)定等問(wèn)題。

之所以會(huì)用以上的思路解決問(wèn)題,胡可說(shuō),工作場(chǎng)景起到了在實(shí)際問(wèn)題中積累思路與技術(shù)的作用,“對(duì)深度學(xué)習(xí)模型的應(yīng)用是前面隊(duì)伍排名區(qū)分的關(guān)鍵,在比賽中應(yīng)用的DNN/RNN模型在自己工作中的廣告領(lǐng)域有很多探索?!?/p>

阿里媽媽打造Ad Tech:用技術(shù)進(jìn)步驅(qū)動(dòng)營(yíng)銷(xiāo)

“比賽中的有些開(kāi)源解決方案,具有與實(shí)際工業(yè)界互相促進(jìn)的作用。”胡可對(duì)算法比賽很感興趣,他也是去年KDD Cup 的冠軍獲得者。

之所以活躍于全球頂級(jí)的算法大賽中,胡可表示,KDD Cup是工業(yè)界和學(xué)術(shù)界都非常關(guān)注的一個(gè)比賽,也產(chǎn)出過(guò)很多對(duì)業(yè)界有影響的技術(shù),比如KDD Cup 2012 產(chǎn)出的XGBOOST和FFM模型對(duì)工業(yè)界產(chǎn)生了很大的推進(jìn)作用,而在工業(yè)界有了一定應(yīng)用沉淀后,又不斷地對(duì)這兩種模型進(jìn)行優(yōu)化。

他也希望能夠向這個(gè)方向努力,預(yù)測(cè)環(huán)境問(wèn)題與廣告問(wèn)題看似場(chǎng)景不同,但技術(shù)本身是相通的,工作和比賽都是在針對(duì)具體問(wèn)題運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法進(jìn)行建模與優(yōu)化。在算法比賽中一方面將工作中熟悉的技術(shù)應(yīng)用于各種實(shí)際問(wèn)題,另一方面則加深對(duì)技術(shù)的理解并且將新的理解應(yīng)用到未來(lái)工作中。

這也正是阿里媽媽技術(shù)團(tuán)隊(duì)所倡導(dǎo)的,作為阿里巴巴旗下的大數(shù)據(jù)營(yíng)銷(xiāo)平臺(tái),阿里媽媽在今年提出了打造營(yíng)銷(xiāo)科技Ad Tech的品牌戰(zhàn)略,在其原有業(yè)務(wù)的探索基礎(chǔ)上,加深與學(xué)術(shù)界的交流,阿里媽媽每年都有一些新論文入選到IJCAI、WWW、AAAI等技術(shù)領(lǐng)域的國(guó)際頂級(jí)會(huì)議上,今年也有論文入選了此次SIGKDD會(huì)議,阿里集團(tuán)共有14篇文章被收錄;同時(shí),它也通過(guò)主辦算法大賽來(lái)增進(jìn)算法交流,例如攜手國(guó)際人工智能的頂級(jí)盛會(huì)IJCAI以及阿里云天池平臺(tái),共同舉辦的IJCAI 2018阿里媽媽國(guó)際廣告算法大賽。

在阿里媽媽Ad Tech的理念之下,通過(guò)技術(shù)的不斷進(jìn)步,來(lái)驅(qū)動(dòng)廣告場(chǎng)景的持續(xù)優(yōu)化,理想正在逐步照進(jìn)現(xiàn)實(shí)。

分享到

xiesc

相關(guān)推薦