在數(shù)據(jù)的加持之下,新一代人工智能的發(fā)展也成為熱點。但是就目前的數(shù)據(jù)采集和標注的情況來看,缺乏各種場景化、領(lǐng)域性的數(shù)據(jù)是一種新常態(tài),傳統(tǒng)的數(shù)據(jù)滿足不了需求。AI對數(shù)據(jù)的質(zhì)量、規(guī)模和個性化方面的要求會越來越高,也成就了一批在數(shù)據(jù)領(lǐng)域“淘金”的企業(yè)。
作為人工智能的領(lǐng)頭羊企業(yè),谷歌的地位不容質(zhì)疑。但是在過去的1年多時間里,因為AI的不靈光,導致了這家IT企業(yè)的CEO在面對外界質(zhì)疑時感到非常尷尬。
2018年底,網(wǎng)友在Google搜idiot(中文意思白癡)時出現(xiàn)的80%結(jié)果都是特朗普,這個問題讓谷歌首席執(zhí)行官桑達爾·皮查伊感到十分惱火。他對此做出了回應:“我們的搜索結(jié)果,大多數(shù)都是根據(jù)數(shù)據(jù)進行智能判斷的。”據(jù)了解,谷歌的程序會把整個互聯(lián)網(wǎng)的信息搬到數(shù)據(jù)庫,然后從數(shù)千億個網(wǎng)頁中收集信息。當有人用谷歌搜索引擎搜索時,系統(tǒng)會通過Google搜索“算法”的列規(guī)則和流程提供這些信息。在此過程中,將用戶的查詢請求與索引中的信息進行比較,并確定出現(xiàn)在搜索結(jié)果頂部的頁面。
谷歌的算法應該是可信的,但是為什么會出現(xiàn)這種情況?很大的可能性是因為數(shù)據(jù)質(zhì)量欠佳,或者某一類型的數(shù)據(jù)欠缺,導致了系統(tǒng)給出了這樣的判斷。在此之前的2018年初,谷歌的一款人工智能APP甚至將一名亞洲男性識別為女性,甚至把一對黑人兄妹誤認是猩猩,最后導致了APP下架。谷歌發(fā)言人表示:導致這種原因的結(jié)果是因為目前圖庫所存的圖片不夠多,歷史畫作無法對應現(xiàn)實世界的真實性。
可以看出,數(shù)據(jù)對于AI的重要性非常高,甚至會影響到它們能否按照預想的目標來運行。對高質(zhì)量數(shù)據(jù)的需求是無止境的,AI數(shù)據(jù)眾包服務也逐漸進入了企業(yè)們的視野。在國外以亞馬遜的Mturk規(guī)模最大,據(jù)稱擁有50萬人每日在線提供數(shù)據(jù)的采集和標注。Mturk能夠利用全球員工的集體智慧,技能和洞察力來簡化業(yè)務流程,增強數(shù)據(jù)收集和分析,并加速機器學習開發(fā)。
國內(nèi)率先瞄準數(shù)據(jù)眾包服務的是一些互聯(lián)網(wǎng)巨頭,如百度、京東,除此之外還有主打自建采集標注基地的云測數(shù)據(jù)等企業(yè)。按照云測數(shù)據(jù)總經(jīng)理賈宇航所說,幫助企業(yè)打造數(shù)據(jù)核心壁壘,大幅度推動AI進一步落地,是云測數(shù)據(jù)一直賦予自身的“使命”。
從2017年開始是中國人工智能爆發(fā)的時代,越來越多的移動APP公司開始利用人工智能幫助更新交互化的模式,比如刷臉開機,采用AI技術(shù)為用戶服務。企業(yè)通過產(chǎn)品優(yōu)化提供更好的服務,未來人工智能在產(chǎn)品迭代過程中變得必不可少。云測成立于2011年,業(yè)務主要集中在移動APP測試領(lǐng)域。隨著人工智能在產(chǎn)品開發(fā)端的融合,一些 AI 企業(yè)主動找到云測提出 AI 數(shù)據(jù)服務的需求。如果說最初選擇應用測試是行業(yè)所趨的話,這次與“數(shù)”結(jié)緣則完全是需求導向。
為什么選擇在數(shù)據(jù)服務領(lǐng)域發(fā)力?賈宇航這樣回應:算力,主要通過計算來優(yōu)化模型(算力,主要是企業(yè)內(nèi)部的運算資源),這一領(lǐng)域更多的是硬件企業(yè)及云計算在涉足,客戶通過服務購買或硬件投入的形式完成。算法更多的是企業(yè)通過自研的方式或通過調(diào)用第三方API在投入,主要成本是研發(fā)、人力和算法調(diào)用,包括各種開源的算法。他們?nèi)绻蛨鼍敖Y(jié)合,就需要更多的企業(yè)來提供數(shù)據(jù)。
就這樣,一些企業(yè)欠缺使用場景的數(shù)據(jù),就可以通過云測數(shù)據(jù)來提供樣本或者搭建場景,進行采集、標注,交給算法模型進行驗證,做到識別率的提升。也有一些企業(yè)的產(chǎn)品發(fā)布了,一些環(huán)節(jié)還需要完善,也通過云測數(shù)據(jù)補充采集一些數(shù)據(jù)并進行標注,優(yōu)化算法,實現(xiàn)在線升級,提升精度。
從行業(yè)角度來看,2014年-2015年人工智能剛剛爆發(fā),數(shù)據(jù)服務企業(yè)更多地是通過網(wǎng)絡(luò)爬蟲等工具收集收據(jù),并打包成產(chǎn)品賣給企業(yè),這些通用的產(chǎn)品能解決客戶的普遍需求。到了2016-2017年,數(shù)據(jù)眾包服務模式開始出現(xiàn),亞馬遜勞務外包平臺Amazon Mechanical Turk就是典型。傳統(tǒng)互聯(lián)網(wǎng)上的人臉照片包括多人多側(cè)臉的照片,但是很難找到一個人多種側(cè)臉的照片,在這種情況下,通用型產(chǎn)品或者互聯(lián)網(wǎng)的數(shù)據(jù)很難解決的問題,Turk則可以獲取到這種數(shù)據(jù)并進行補充。到了2017-2019年,人工智能對數(shù)據(jù)的需求進一步升高,算法中存在很大的局限性,來源于已有設(shè)備中的元器件、傳感器采集到的數(shù)據(jù)對算法的提升作用非常有限。像云測數(shù)據(jù)這樣的數(shù)據(jù)服務企業(yè)就會自研一些場景或者是硬件,不僅對已有的數(shù)據(jù)質(zhì)量進行提升,還會對不同維度的數(shù)據(jù)進行采集。比如在收集圖像數(shù)據(jù)同時采集聲音,幫助進行判斷。
從2017年開始,云測數(shù)據(jù)開始對客戶提供定制化場景數(shù)據(jù)采集和標注服務。賈宇航介紹,“基于人工智能對不同維度數(shù)據(jù)和不同場景環(huán)境下數(shù)據(jù)采集要求,我們在華東、華北、華南都設(shè)有數(shù)據(jù)交付中心和采集基地。比如有客戶提出采集24種不同光線下的人臉表情,云測數(shù)據(jù)會安排特定人群到特定場景實驗室進行表情采集,給客戶提供特定場景、設(shè)備下的用戶特征數(shù)據(jù),以幫助企業(yè)完善產(chǎn)品發(fā)布之前需要的數(shù)據(jù)。”
隨著時代的進步,人工智能對數(shù)據(jù)的要求也更加復雜,精度會有提升,對標注對象關(guān)鍵點的數(shù)量、序號會有不同要求。針對這些變化,云測數(shù)據(jù)從2017年開始搭建自己的標注團隊和基地,通過提出方法論,對應教學流程,以自建基地的方式,讓標注和質(zhì)檢人員、項目經(jīng)理每天面對面溝通,確保每個人能夠理解,并掌握標注有關(guān)技術(shù),技能和經(jīng)驗能夠得到持續(xù)的提升。
對于溝通產(chǎn)生的作用,賈宇航表示,“很多標注人員即使知道該標在哪個部位,可能在精度上還會相差幾個像素,這樣的操作過程到了質(zhì)檢系統(tǒng)那里就會通不過,質(zhì)檢人員會在流程中將工作打回重新標記,項目經(jīng)理通過這樣的溝通,會對每個人員的標記痕跡及特點進行統(tǒng)計,然后進行一對一的交流,這樣的過程能夠幫助他們進行理解?!?/p>
隨著技術(shù)的發(fā)展,AI會和產(chǎn)業(yè)融合越來越緊密。對于數(shù)據(jù)服務企業(yè)來說,也需要具備相關(guān)產(chǎn)業(yè)知識、領(lǐng)域知識。這些知識需要與標注人員進行持續(xù)的溝通和交流,才能得到有效的積累,從而理解客戶所做的事情。舉個例子,對自動駕駛行業(yè)的數(shù)據(jù)采集,有開車經(jīng)驗的就會標注的比較好,只有通過專業(yè)的培訓和知識體系掌握,才能確保大家理解得比較到位。
賈宇航將人工智能訓練需要的數(shù)據(jù)服務分為三個階段:互聯(lián)網(wǎng)數(shù)據(jù)采集、眾包數(shù)據(jù)服務、定制化數(shù)據(jù)采集服務?!斑@幾個階段可以理解為嬰兒不同時期需要吃不同的奶粉”。早期客戶對數(shù)據(jù)的精度要求其實沒有那些高,可以不用選擇定制化的數(shù)據(jù)服務模式。如果企業(yè)的產(chǎn)品馬上要落地了,并且已經(jīng)有了嚴格的迭代周期,那么就會用到定制化數(shù)據(jù)采集服務。
當然,并不是所有的企業(yè)都是這樣,對數(shù)據(jù)采集和標注有諸多嘗試,并需要高精度數(shù)據(jù)需求的更多的是行業(yè)的領(lǐng)導者或先驅(qū)者,通過做很多的嘗試,用人工智能的方式顛覆已有交互模式,擴大收益減少成本。
現(xiàn)在,云測數(shù)據(jù)重點關(guān)注四個行業(yè):智能安防、智能駕駛、智能家居和智慧金融。安防領(lǐng)域,可以理解為對智慧城市中交通流量的把控,可以決定紅綠燈長短時間,或者從安全的角度出發(fā)阻止打架斗毆,還有為防止老人小孩走丟,在半個小時內(nèi)將他們的行動軌跡描畫出來,以便進行追蹤;駕駛包括自動駕駛和輔助駕駛。自動駕駛方面,比如滴滴出行正在研發(fā)的自動駕駛出租車,在未來可以替代司機的角色。輔助駕駛方面,很多汽車企業(yè)會做云交互、疲勞檢測,通過攝像頭等工具的搭建,完成以人為中心的數(shù)據(jù)采集;家居領(lǐng)域,原來主要是以手機作為入口,現(xiàn)在每一個電器都有可能成為入口。對應的會進行一些語音數(shù)據(jù)的采集,再將這些語音轉(zhuǎn)為文字,并能讓人工智能系統(tǒng)理解;金融方面主要分為兩個部分,一是OCR票據(jù)相關(guān)的數(shù)據(jù)標注,比如轉(zhuǎn)寫等工作,二是金融客服機器人、RPA等領(lǐng)域。
在數(shù)據(jù)服務市場,云測數(shù)據(jù)目前屬于第一梯隊。賈宇航坦言并不擔心競爭,數(shù)據(jù)服務行業(yè)的硬門檻是服務管理體系,做數(shù)據(jù)服務的企業(yè)員工比較多,管理不是一件容易事。另一方面,技術(shù)是積累,云測數(shù)據(jù)雖然不做算法,但是在技術(shù)投入上很大。云測數(shù)據(jù)的使命價值,是讓企業(yè)擁有數(shù)據(jù),構(gòu)建核心競爭力?!拔覀兊膬r值定義體現(xiàn)了對數(shù)據(jù)安全的考慮。我們在整個工具研發(fā)過程中,數(shù)據(jù)標注相關(guān)的服務者只有操作的權(quán)利,沒有獲取權(quán)力。”
一般的數(shù)據(jù)采集流程是這樣的——對應的工具采集完成之后會存儲到本地數(shù)據(jù)中心,確保這一過程沒有人工獲取數(shù)據(jù)的風險。標注人員使用的電腦都是沒有USB接口的,使用內(nèi)網(wǎng)連接,直接通過瀏覽器端打開平臺進行數(shù)據(jù)標注,數(shù)據(jù)存放在服務器中,交付完成之后數(shù)據(jù)會銷毀。
賈宇航表示,云測數(shù)據(jù)一直關(guān)注著AI的進化過程?!翱蛻舻男枨髸蛹毞?,對行業(yè)領(lǐng)域的沉淀要求也會更高,我們會對更多的細分領(lǐng)域做業(yè)務和知識的沉淀,滿足他們的需求?!?/p>