騰訊首席科學家孫國政
大數(shù)據(jù)的挑戰(zhàn)
現(xiàn)在這個世界是一個互聯(lián)網(wǎng)時代,也可以說是一個大數(shù)據(jù)時代。比如說我們現(xiàn)在每天能出現(xiàn)2.5Q的數(shù)據(jù),如果現(xiàn)在開始每年能夠在將來10年中有50倍數(shù)據(jù)增長量,這就給大家?guī)硪粋€挑戰(zhàn),這些數(shù)據(jù)怎么辦?現(xiàn)在世界五百強每個公司都有一個新的計劃就是怎么來收集大數(shù)據(jù),可見大數(shù)據(jù)現(xiàn)在很重要。
究竟大數(shù)據(jù)問題是個煩惱還是商機,這是所有公司和開發(fā)者思考的一個重要問題。我們現(xiàn)在所看到的好多公司一些管理層把大數(shù)據(jù)都當成煩惱,怎么來處理?美國健康總署表示,如果把現(xiàn)在的數(shù)據(jù)都用好了,相當于每年收入300萬美元,這相當于大數(shù)據(jù)帶來很大商機。
KDD-CUP 2012 Solutions剖析
現(xiàn)在我們面臨的挑戰(zhàn)一方面是大數(shù)據(jù)如何能夠存儲和處理,更重要的是大數(shù)據(jù)怎么為我們造福!現(xiàn)在就有一個為用戶、為廣大網(wǎng)民服務怎么發(fā)展數(shù)據(jù)的問題。在這樣的背景下,就出現(xiàn)了KDD-CUP比賽。今年KDD—CUP選的題目有兩個,一個是根據(jù)騰訊微博數(shù)據(jù),讓你算一下用戶收聽推薦的名人機率。第二個是根據(jù)搜搜商業(yè)搜索的數(shù)據(jù),推薦有用的廣告。
KDD—CUP有三個基本特點:第一,數(shù)據(jù)比往年量大,直接來自真實產(chǎn)品運營日志,沒有經(jīng)過任何改變;第二,參加人數(shù)與往年比也是最多的,track1三千多人,track2五千多人;第三,數(shù)據(jù)集非常復雜,參賽者需要自己進行處理,形成所需的特征變量,且變量的最終數(shù)目還取決于參賽者處理方法,沒有標準答案。
推薦系統(tǒng)的意義和挑戰(zhàn)
現(xiàn)在數(shù)據(jù)用途從廣告搜索、娛樂、內(nèi)容等等都要服務用戶,所以推薦技術(shù)應運而生。但是推薦系統(tǒng)有幾個要關(guān)注的問題:
第一個是Context aware處理,Context包括時間、地點、涉及公司和用戶的情緒、屬性、社交網(wǎng)絡(luò)等等屬性。這個問題是我們要很好研究的課題,現(xiàn)在微博推薦也是這樣,就是不同場景下收聽率是不一樣的。
其次是Heterogenity,有不同形式不同渠道的,你怎么統(tǒng)一到一塊兒。另外你推薦應該跟它的內(nèi)容,比如你了解不了解這個人的背景等等。
第三個做推薦必須以用戶為中心,最重要的是用戶接不接受,你別推薦了半天人家不接受,那也沒用啊。在這里有很多算法來研究,我們怎么能讓用戶感到滿意,這樣界面交互很重要,你顯示不好人家不接受,或者寫的詞跟內(nèi)容不搭界人家也不接受。
推薦方面有很多挑戰(zhàn),我總結(jié)了這幾點:主動推薦不光是推薦什么,怎么推薦也很重要,另外隱私保護性也很重要,每個人都有個人行為,你每次推薦都是個性化的,怎么個性化又怎么保護隱私這是一個對立的問題,在移動互聯(lián)網(wǎng)下怎么推薦這對我們提出很多挑戰(zhàn)。