在Orca中,英特爾BigDL嘗試讓用戶可以把筆記本電腦上運行的Notebook部署到分布式集群,云中托管的Kubernetes集群、或者Hadoop集群。在Notebook的一開始,只需調(diào)用Orca下文中的一個方法,它會告訴程序用戶希望運行哪個環(huán)境,可以是在本地筆記本電腦上,也可以是本地集群或者Kubernetes集群等。只需改變一行代碼,這個Notebook就可以在本地筆記本電腦上運行,模擬分布式集群規(guī)模,在分布式環(huán)境中處理大型數(shù)據(jù)集。
而在更高層級的運用,即基于這些管道開發(fā)更垂直的行業(yè)解決方案中,用戶可以通過BigDL PPML,在云上創(chuàng)建一個支持大數(shù)據(jù)和AI的可信平臺環(huán)境。在把數(shù)據(jù)或者模型轉(zhuǎn)移到云上之前,用戶可以使用加密技術(shù)保護內(nèi)容,然后通過BigDL PPML直接在加密數(shù)據(jù)上運行應用軟件、模型、Spark數(shù)據(jù)分析等,PPML會在可信環(huán)境中讀取加密數(shù)據(jù),解密并運行相應的應用,同時確保數(shù)據(jù)的安全性和應用的完整性。在此基礎下,BigDL PPML還可以提供可信的聯(lián)邦學習(也被稱為聯(lián)合學習)——每一方只擁有一部分信息和功能,但他們可以聯(lián)合訓練一個模型,而不需要向另一方披露數(shù)據(jù)。通過SGX提供的硬件級的安全環(huán)境,聯(lián)邦學習場景中的性能和安全性能夠得到有效保證。
此外,BigDL之上構(gòu)建的其他垂直行業(yè)解決方案還包括Chronos項目——一個利用AutoML技術(shù)構(gòu)建大規(guī)模、分布式時間序列分析的應用框架,可用于時序數(shù)據(jù)的處理,滑動窗口取樣、縮放、重采樣、補全,以及自動的特征提取。同時,其中內(nèi)置了大量時序預測和異常檢測模型,用戶可以直接使用TSDataset構(gòu)建時序應用進行數(shù)據(jù)處理,使用對應的模型進行預測或者異常檢測。AutoML技術(shù)幫助用戶搜索最佳的模型參數(shù)以提高模型預測的準確性。 Chronos同時內(nèi)置了Intel的分類加速工具可以幫助用戶取得更好的訓練與推理速度;以及Friesian項目——用于構(gòu)建大規(guī)模端到端推薦解決方案的應用框架,提供了豐富的內(nèi)置特征工程操作、推薦算法和參考樣例,幫助用戶快速構(gòu)建一個完整的推薦系統(tǒng)來應對離線或者在線的推薦場景。
總而言之,作為一個開源項目,BigDL能夠提供端到端大數(shù)據(jù)人工智能管道,讓用戶、科學家和數(shù)據(jù)工程師更容易構(gòu)建大規(guī)模分布式人工智能解決方案,并使其變得更加容易。它還提供各種垂直框架,如推薦、時間序列分析、隱私保護機制,以幫助用戶快速整合他們的AI解決方案?;蛟S在并不遙遠的未來,伴隨著人工智能在人類生活中更加深度的滲透,BigDL與大數(shù)據(jù)的結(jié)合將為我們揭示更多意想不到的神奇真相。