CDP不僅提供了一種自助式數據體驗,使數據科學家,數據工程師,商業(yè)分析師和開發(fā)人員能夠容易地訪問和分享數據。而且還提供了一個完整的機器學習工作流,使得數據科學家和機器學習工程師可以更快地構建和部署模型。
Cloudera 大中華區(qū)技術總監(jiān)劉隸放表示,Cloudera是一家值得信任的幫助別人管理數據的公司,Cloudera的平臺上面管理的數據已經超過2500萬TB,其規(guī)模與很多云服務商的整個數據體量相當。
在劉隸放看來,Cloudera(肯睿)在幫助企業(yè)落地大語言模型方面有獨特優(yōu)勢。
首選,企業(yè)用戶不會直接用公有云上的大模型,這些模型有很多都是根據互聯網上的數據訓練而來的。企業(yè)會基于自己的數據做訓練,這些數據跟企業(yè)的關聯性更高,訓練出的模型的實用性也更強。巧的是,用戶的很多數據原本就在Cloudera的平臺上。
第二點,Cloudera可以幫助企業(yè)落得更值得信任的大語言模型。ChatGPT的AI幻覺問題很明顯,當沒有對應的答案時,它經常會“一本正經的胡說八道”。Cloudera一直在做大數據分析,盡量在保持原始數據的基礎上來加工,對于輸出的結果還會有一個印證的過程,它可以利用大數據分析的能力對AI輸出的答案進行分析和驗證。
如今,Cloudera提供可部署在本地和公有云的數據平臺,過去兩年來,Cloudera一直在宣傳在數據編織的基礎上面,幫助用戶去做數據的治理和管控。同時,也在強調數據庫、數據湖、數據倉庫融合等技術的優(yōu)勢。而現在,Cloudera的平臺將轉向去成為一個AI平臺。
Cloudera的AI平臺CML(CDP Machine Learning)可以分為三個部分:
首先,就是以CDP為基礎的數據平臺,這里有很多用戶數據;
第二部分,它可以幫助用戶加工用于訓練的數據,這套加工數據的流程原本用在大數據流程中,AI也同樣需要對數據進行加工處理;
第三部分,它可以托管和運行大語言模型,并在模型的基礎上,構建和部署AI應用。
劉隸放表示,憑借在數據技術方面安全可控的優(yōu)勢,CML用戶也吸引了很多用戶。目前,很多國內的企業(yè)用戶都在思考如何落地大語言模型,Cloudera的CML平臺可以讓用戶在有管控的情況下來部署大語言模型。
除了在大語言模型方面的新布局,Cloudera還介紹了監(jiān)控和優(yōu)化CDP部署的新服務,叫做Cloudera Observability。
Cloudera Data Platform (CDP)是一個可以跨私有云和公有云部署的平臺,實際部署中,可能分布在多個基礎架構上。在如今復雜系統(tǒng)架構中,想僅僅通過監(jiān)控來掌握所有情況絕非易事,很多時候都會影響資源利用率和性能表現。
此外,由于數據和分析都是在混合云上完成的,這對財務管理也帶來了很大挑戰(zhàn)。將預算按照團隊或者場景劃分都會很需要會計做很多工作,預測未來支出也會更麻煩??傊?,財務管理綿連的挑戰(zhàn)也非常巨大。
此前,Cloudera有一個產品叫Workload Management,它主要是做工作負載調優(yōu)的,但是在現在混合云的環(huán)境之下,光有調優(yōu)是不夠的。于是就有了Cloudera Observability ,它可以幫助企業(yè)解決上述問題。
Cloudera Observability 有助于提高系統(tǒng)的可控性和穩(wěn)定性。當系統(tǒng)越來越復雜,對運維人員的技能要求也越來越高,在排查故障,找出問題時的難度也越來越高。而Cloudera Observability 可以減輕運維人員的負擔,從而提高系統(tǒng)的可控性和穩(wěn)定性。
Cloudera Observability 可以提高對于系統(tǒng)資源的管控,多云環(huán)境下的資源經常會收縮或者膨脹,資源是在不同動態(tài)的變化當中,運維人員希望在運維過程中,對于系統(tǒng)資源的消耗有一個評判的標準,從而找到負載的優(yōu)化方向。
Cloudera Observability可以提高財務管控能力,以系統(tǒng)監(jiān)控和數據分析技術為基礎,幫助企業(yè)管理IT資源的使用成本,從財務角度出發(fā),對整個系統(tǒng)的資源使用狀況做一個評判,從而幫助企業(yè)更好地管理IT資源的使用狀況。
目前,Cloudera Observability是SaaS版本,直接部署在公有云上的,從劉隸放的介紹中了解到,Cloudera很快還會推出一個本地的部署版,更適合那些行業(yè)監(jiān)管嚴格,對數據敏感的用戶,它可以在本地做分析。