1、?一人多機(jī)檢測(cè)
極光大數(shù)據(jù)通過(guò)自有業(yè)務(wù)海量調(diào)用日志分析,對(duì)于用戶設(shè)備及app建立了多維度的唯一性識(shí)別標(biāo)識(shí),通過(guò)設(shè)備的多維度識(shí)別交叉定位,發(fā)掘設(shè)備關(guān)聯(lián)關(guān)系。
2、?用戶行為相似性
極光大數(shù)據(jù)通過(guò)移動(dòng)設(shè)備的用戶行為相似性來(lái)衡量用戶在移動(dòng)設(shè)備上的使用行為相關(guān)程度,主要從2個(gè)方面來(lái)度量:
??app安裝特征相似度:
基于極光大數(shù)據(jù)平臺(tái)的海量數(shù)據(jù)挖掘,構(gòu)造用戶app安裝行為特征矩陣,使用廣義Jaccard相關(guān)系數(shù),計(jì)算用戶app安裝特征相似度。對(duì)于用戶app安裝特征,不同的app能夠反映用戶相似度的程度有很大差異,根據(jù)app的滲透率加權(quán)得到修正后的app安裝特征相似度。
??WiFi特征關(guān)聯(lián)度:
基于極光大數(shù)據(jù)平臺(tái)的海量數(shù)據(jù),根據(jù)時(shí)間、空間、無(wú)線WiFi屬性等信息進(jìn)行清洗加工,建立用戶WiFi使用特征矩陣;基于用戶WiFi特征矩陣,對(duì)于不同時(shí)段設(shè)備間的WiFi特征,采用余弦相似度計(jì)算兩兩用戶間的工作日WiFi使用特征關(guān)聯(lián)度和周末WiFi使用特征關(guān)聯(lián)度。
3、?空間軌跡相似度
空間軌跡相似度(spatial trajectory similarity)算法的基本思想就是通過(guò)降維的手段將多維空間向量分解到同一維度上求解,通過(guò)解決平面問(wèn)題來(lái)達(dá)到最終解決空間模型的目的。
兩個(gè)軌跡間的相似度可以定義為:Sim(A,B) = (POIA∩POIB)/ (POIA∪POIB);
向量空間余弦相似度(Cosine Similarity):余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似。
提取一段時(shí)間內(nèi)的用戶報(bào)點(diǎn)信息,按照時(shí)間序列處理,采用STS算法,計(jì)算兩兩設(shè)備間的空間軌跡相似度。
實(shí)證效果
1、?app安裝特征相似度:
對(duì)于某用戶換機(jī)前后的兩個(gè)設(shè)備,計(jì)算app安裝特征相似度,使用app滲透率加權(quán),兩個(gè)移動(dòng)設(shè)備的app安裝特征相似度為:0.913,app安裝特征相似性非常高。
兩個(gè)設(shè)備安裝app數(shù)量為120個(gè)以上,app安裝重合度為72.8%,同時(shí)安裝了滲透率低于5%的app應(yīng)用有22個(gè),滲透率低于1%的app有7個(gè)。由此可見(jiàn),app的安裝情況能在一定程度上反應(yīng)設(shè)備之間的相似性。
2、?WiFi使用特征關(guān)聯(lián)度:
基于兩個(gè)設(shè)備的WiFi使用偏好情況,計(jì)算WiFi特征關(guān)聯(lián)度,計(jì)算得出工作日WiFi使用特征關(guān)聯(lián)度為0.35,周末WiFi使用特征關(guān)聯(lián)度為0;
經(jīng)過(guò)極光大量數(shù)據(jù)驗(yàn)證,工作日WiFi特征關(guān)聯(lián)度大于0.25,為工作日關(guān)系較為密切的用戶,比如同事關(guān)系;周末WiFi特征關(guān)聯(lián)度大于50%,為周末關(guān)系較為密切的用戶,比如親人。
3、?空間軌跡相似度
從極光大數(shù)據(jù)數(shù)據(jù)庫(kù)中挑選3個(gè)空間軌跡較為相似的設(shè)備,其中設(shè)備A和設(shè)備C為同一用戶的兩個(gè)設(shè)備,設(shè)備A和設(shè)備B的位置軌跡比較相近,以設(shè)備A為基準(zhǔn),分別計(jì)算設(shè)備A和設(shè)備B、設(shè)備A和設(shè)備C的空間軌跡相似度。
上表中都是解析出的各軌跡對(duì)應(yīng)的POI坐標(biāo)值,按時(shí)間維度將三維空間軌跡解析到平面中,分別取各POI點(diǎn)的經(jīng)度(id,lat)和維度(id,lng)計(jì)算軌跡間的余弦相似度。二者的平面軌跡圖如下(紅線表示設(shè)備A,藍(lán)實(shí)線表示設(shè)備B,虛線表示設(shè)備C):
可以計(jì)算出COSlat(A,B)=0.708,COSlng(A,B)=0.784;?COSlat(A,C)=0.746,?COSlng(A,C)= 0.819;
那么可以得到該設(shè)備A與設(shè)備B的相似度為0.746,與設(shè)備C的相似度為0.783。顯然設(shè)備A和設(shè)備C的空間相似度較高。
總結(jié)
目前各個(gè)行業(yè)的大數(shù)據(jù)的應(yīng)用越來(lái)越頻繁,大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)、大數(shù)據(jù)運(yùn)營(yíng)、智能推薦等應(yīng)用均取得顯著的效果,而這些領(lǐng)域都要求企業(yè)對(duì)用戶要有充分的了解,才能精準(zhǔn)的定位目標(biāo)人群。如何有效高質(zhì)量的擴(kuò)充目標(biāo)群體用戶,基于現(xiàn)有用戶標(biāo)簽的基礎(chǔ)上,用戶相似性也是一個(gè)非常重要的信息。極光大數(shù)據(jù)基于設(shè)備的用戶相似性能夠在精準(zhǔn)營(yíng)銷(xiāo)、智能推薦中發(fā)現(xiàn)很多的關(guān)聯(lián)用戶,能夠一定程度上擴(kuò)充關(guān)聯(lián)目標(biāo)人群,提升企業(yè)的營(yíng)銷(xiāo)效率和質(zhì)量。