中石油東方物探數(shù)據(jù)中心原總工程師、教授級高級工程師賴能和

當(dāng)天下午,中石油東方物探數(shù)據(jù)中心原總工程師、教授級高級工程師賴能和在“數(shù)據(jù)創(chuàng)新應(yīng)用論壇”上發(fā)表了題為“數(shù)智時代新型基礎(chǔ)設(shè)施建設(shè)實踐與探索”的演講,結(jié)合石油勘探領(lǐng)域的應(yīng)用,講述了IT基礎(chǔ)設(shè)施的基本現(xiàn)狀、大模型對新型IT基礎(chǔ)設(shè)施帶來的新挑戰(zhàn)等情況。

本文根據(jù)演講速記整理,未經(jīng)本人審定。

賴能和:各位來賓,下午好!

我今天跟大家分享的是“數(shù)智時代新型IT基礎(chǔ)設(shè)施建設(shè)實踐與探索”。

想這個名字我想了很久,后面我講為什么想很久。

非常感謝DOIT搭的這個平臺,來美麗的金雞湖畔交流基礎(chǔ)設(shè)施的建設(shè),也感謝在座的各位花時間一塊聽分享。

我一直在中石油做高性能計算,做人工智能,做存儲、云計算、大數(shù)據(jù),做數(shù)據(jù)中心基礎(chǔ)設(shè)施,一說基礎(chǔ)設(shè)施,大家想到的是CPU、GPU、網(wǎng)絡(luò)、UPS、空調(diào)、綜合布線基礎(chǔ)設(shè)施。我題目不加“IT”行不行?不行,如果不加IT和國家的基礎(chǔ)設(shè)施、新基建又不一樣了,所以一定要加“IT”。

在分享之前,講幾張PPT告訴大家什么叫油氣勘探。

油氣勘探與數(shù)字化

很多人不知道油氣勘探,南方人知道的更少,因為找石油的基本都是在北方。什么叫油氣勘探?油氣勘探就是找石油的,找出來以后給油田,我們只負(fù)責(zé)找。怎么找?很難的。油氣勘探的產(chǎn)業(yè)鏈很長,36000人做油氣勘探,有勘探、開發(fā)、煉化、新能源、銷售、新材料、資本,還有金融資本。

現(xiàn)在很火的新能源、新材料,大家都在轉(zhuǎn)型,圖上黃色的都是轉(zhuǎn)型過來的,新能源、新材料,加油站是下游。

我們是干什么呢?第一個環(huán)節(jié),找油。這是一個產(chǎn)業(yè)鏈非常長、技術(shù)密集型、設(shè)備密集型、專業(yè)密集型的行業(yè),僅勘探就有12個專業(yè),計算機都排到最后,前面還有測量、地質(zhì)、地儲物理。

怎么做油氣勘探?油氣勘探有三個環(huán)節(jié),第一就是采數(shù)據(jù),以前大家聽說過挖個坑放炸藥,波就往底下傳,遇到水、油、氣、沙,就會往回,會把信號傳上來,就是數(shù)據(jù)采集。有多少個接收點,以前就是24個接收點,現(xiàn)在有十幾萬個接收點,數(shù)據(jù)量非常大。我們有100多個隊伍,所以每天的數(shù)據(jù)非常多,這是陸上挖坑。

現(xiàn)在不允許挖坑了,有特種車輛,很古怪的車,非常大,高頻率地上震動,波就往下傳,然后返回來,就得回來數(shù)據(jù)采集。

采集完數(shù)據(jù)以后,我怎么知道地下有油呢?就需要強大的計算機,我們國家最先進(jìn)的計算機就是用在石油和軍工,在70年代、80年代,包括我們的銀河1、銀河2都是在這方面用,這是國家的能源安全,找石油的第二個環(huán)節(jié)就是高性能計算機。我自己負(fù)責(zé)的數(shù)據(jù)中心大概有3萬多個節(jié)點,幾百P的存儲,不停地運作。

從高性能計算做完以后怎么辦?誰也看不懂,那就找“老中醫(yī)”,他可以看出哪里有油,哪里有氣,就做成PPT上右邊的那個圖,然后給油田確定打井,好幾千萬一口井,所以很慎重。有人說找油不是很容易嗎?為什么那么貴呢?我跟大家講,找到以后打井下去成功率也不到40%,前面花的精力都白搭了,所以確定哪里打井的時候非常慎重,所以現(xiàn)在反過來說要把前面的數(shù)據(jù)整理好,采集的數(shù)據(jù)準(zhǔn),處理的數(shù)據(jù)要準(zhǔn),還要把老資料、老信息結(jié)合起來,要綜合分析。

簡單來說,就是給地球的地表做CT,

CT數(shù)據(jù)量非常大,這就是油氣勘探。

整個石油勘探的線非常長,比如說勘探第一個環(huán)節(jié),有鉆井、測井、壓裂,不是光打一個地方,周邊的地方要壓裂,把油都流到這里來,還有采油工程,然后把油氣收起來,每一個都是非常巨大的工程,技術(shù)含量非常高,數(shù)字化程度也非常高。

油氣勘探發(fā)展五、六十年,跟過去有什么區(qū)別呢?有五方面:一是現(xiàn)在找油更難找了,非常隱秘。二是非常深,東部,華東地區(qū)都是比較淺,包括東北地區(qū)都是東部地區(qū)比較淺,新疆、西部地區(qū)非常深,有一些都上萬米的井,打一口井上萬米。三是隱蔽的油氣藏。四是非物探,非常規(guī)的,比如說煤層氣。五是深海油氣。

這就帶來新的問題。

大家講降低生產(chǎn)成本,要做到所有的數(shù)據(jù)處理是準(zhǔn)確的,精確的高效力,要可度量,要有一個具體數(shù)據(jù),所以要做數(shù)字化、智能化,需要巨大的算力存儲和靈活的IT基礎(chǔ)設(shè)施,這就是AI的加持。

大家都知道,1956年就有了人工智能,三起兩落,三次起來又落下去,發(fā)展了六七十年,現(xiàn)在又在做,為什么呢?因為沒有解決落地的問題。今天一定要讓人工智能產(chǎn)生效益,光做一個音響不行,要解決生產(chǎn)問題,現(xiàn)在做人工智能要跟工業(yè)生產(chǎn)結(jié)合起來,提升效率。

石油行業(yè)數(shù)字化、信息化是走在比較前面的。

我們上世紀(jì)90年代就在做信息化,油氣勘探本身就是數(shù)字行業(yè),采集過來都是數(shù)據(jù),雖然采數(shù)據(jù)非常笨,有很多機械的模式,信息化從2000年第一個階段就是分散建設(shè),和現(xiàn)在很多單位一樣,就是有錢就買一點。2000年左右不讓分開買了,要集中。第三個階段,就是要應(yīng)用集成,因為買硬件和軟件全部集成起來。第四個階段就是要數(shù)據(jù)共享、軟件也要共享,說起來很簡單,做起來非常難。比如說軟件共享怎么做?這都是技術(shù)問題,數(shù)據(jù)要有共享,那么多數(shù)據(jù),不同的格式,所以會形成數(shù)據(jù)湖的概念。

共享起來就行了嗎?不行,資源共享來以后要做數(shù)據(jù)化轉(zhuǎn)型,數(shù)字化轉(zhuǎn)型太虛了,到底做什么事?我后面會跟大家分享一下我們到底怎么做數(shù)字化創(chuàng)新。

通過以上幾張PPT,我把怎么做石油勘探做了分享。

IT基礎(chǔ)設(shè)施面臨的機遇與挑戰(zhàn)

數(shù)智時代IT基礎(chǔ)設(shè)施到底有哪些新的挑戰(zhàn)?下一步要做什么?我一一跟大家介紹。

這個PPT我做了好幾個月,但是時間很短,我就講其中一小部分。

今天的基礎(chǔ)設(shè)施有新的內(nèi)涵了,大家說基礎(chǔ)設(shè)施、新基礎(chǔ)設(shè)施,如果不加IT就有問題了。

數(shù)智時代的IT基礎(chǔ)設(shè)施,數(shù)據(jù)中心、數(shù)據(jù)基礎(chǔ)設(shè)施是其中一部分,為什么只算一部分呢?算力、存儲、數(shù)據(jù)倉,這都是過去的;智能計算,加速卡、邊緣計算、數(shù)據(jù)湖,還有算法庫、模型庫、知識庫、技術(shù)標(biāo)準(zhǔn)體系、數(shù)據(jù)安全體系、AI開發(fā)平臺、物聯(lián)網(wǎng)平臺、應(yīng)用軟件與開發(fā)平臺、多學(xué)科協(xié)同研究平臺,這都是今天新的基礎(chǔ)設(shè)施,原來IT基礎(chǔ)設(shè)施就是UPS、空調(diào)、布線,那都是看得見的硬件,剛剛說的都是軟的,跟數(shù)據(jù)有關(guān)聯(lián)。

今天的IT基礎(chǔ)設(shè)施面臨哪些機遇與挑戰(zhàn)?

一是現(xiàn)有的IT基礎(chǔ)設(shè)施已經(jīng)很難滿足生產(chǎn)發(fā)展需求,油氣勘探的裝備也和國外差距非常大,很大一部分的裝備依賴于國外。

二是今天的算力不夠。國家建了十個國家超算中心,24個智能大腦還不夠嗎?看你是干什么用,給石油就不夠,但是干別的可能富裕了很多。

比如說一個項目的數(shù)據(jù)270T,要投入600+32GPU+4PB做配套。一個項目1000T,要2000多個CPU匹配,384GPU匹配,還有幾十個PB匹配;另外,數(shù)據(jù)要流動,就要花很多空間。

三是存儲不夠,量不夠,性能也不夠。量靠買的,但是買多了成本也很高,以前1P就是幾百萬,后來幾百萬,現(xiàn)在變成幾十萬,現(xiàn)在幾十萬買幾十P沒有問題,但是一下買30P、50P也不少錢。

四是性能。海量的數(shù)據(jù)如何讀寫,檢測也是很大的問題。1TB的數(shù)據(jù)在屏幕上顯示一下很難打開,2TB的數(shù)據(jù)就更沒法打開,三維可視化是沒有辦法打開的,一定要借助很多新的數(shù)據(jù)技術(shù)。

五是生產(chǎn)周期很長,系統(tǒng)擴展性差。現(xiàn)有的IT基礎(chǔ)設(shè)施很難跟進(jìn)業(yè)務(wù)發(fā)展的需要,為什么?因為要算成本,要提高用戶體驗,還要智能算力、智能運維,現(xiàn)有的基礎(chǔ)設(shè)施做不到,大部分的公司做不到,只有新上的設(shè)備可以做到。

六是技術(shù)發(fā)展非???,包括有云、物聯(lián)網(wǎng)、云原生、人工智能等等。

現(xiàn)有IT基礎(chǔ)設(shè)施無法適應(yīng)數(shù)據(jù)挖掘要求,油氣勘探過去積攢的數(shù)據(jù)都是分散放在不同的地方,如何把價值挖掘起來也是非常難的,有些地方有些數(shù)據(jù)還要考古,因為不知道數(shù)據(jù)是誰的,也不知道對不對,有些數(shù)據(jù)好幾個副本,不知道哪一個是正確的,所以如何把它用起來是很難的。

過去很多單位都是一棟大樓放數(shù)據(jù),很多先進(jìn)的設(shè)備都躺在那兒,那個不是資產(chǎn),資產(chǎn)要流動起來才有價值。

上午的報告我都在認(rèn)真的聽,有兩個演講提到了升級平臺。沙鋼有80多個應(yīng)用平臺,經(jīng)過十幾年、二十年的數(shù)字建設(shè),會出現(xiàn)非常多孤立的應(yīng)用。比如說工業(yè)互聯(lián)網(wǎng)600多個APP,平臺多,數(shù)據(jù)庫多,數(shù)據(jù)類型有結(jié)構(gòu)化、有半結(jié)構(gòu)化、有非結(jié)構(gòu)化的數(shù)據(jù)。

數(shù)智時代大模型成為技術(shù)競爭的新熱點。

1956年出現(xiàn)人工智能,到70年代末有機器學(xué)習(xí),機器學(xué)習(xí)做半天沒有什么效果,大家就不干了,不投資了。2006年又做深度學(xué)習(xí),深度學(xué)習(xí)能做一些事,但是算力不夠,太貴,所以又停在那兒。這兩年硬件價格下去,存儲價格下去了,尤其是很多GPU的價格下來了,可以做很多事,所以從2018年開始要做大模型了。

以AIGC為例。AIGC一開始就是文字,只能看,后來還可以變?yōu)閳D像視頻,多維的空間,不停的變,所以數(shù)據(jù)模型越來越多。

今天的大模型具有新的特點,一是超大模型都大于10億數(shù)十/百層,數(shù)千張CPU訓(xùn)練。二是預(yù)訓(xùn)練,泛化的通用能力,具體場景可微調(diào)。三是學(xué)習(xí)方式是自監(jiān)督學(xué),不需要做標(biāo)注,因為做標(biāo)注非常難,非常費時間,另外就是框架,大家都知道大模型就兩個家族,一個是OpenAI,一個就是Google的PaLm,他們是祖宗,后面又衍生了很多。其實模型的數(shù)據(jù)也是不停地變化,過去的是大模型,過幾天也成小模型了,數(shù)據(jù)都在一直變。

大模型成為所有IT的頭部公司都在做的事。好幾家合作伙伴都讓給我開賬號,讓我免費用,但有些能干,有些什么都干不了。比如,我讓Python寫代碼,但是寫了一半就不寫了。

模型參數(shù),我們了解了解就可以了,包括浪潮有元,華為有盤古,阿里有通義,百度有文心一言。

今天的人工智能從單點技術(shù)走向了通用技術(shù),這是很不一樣的,就是很時髦的AGI,從大模型走向超大模型,從單模態(tài)走向多模態(tài)。

大模型與新型IT基礎(chǔ)設(shè)施

有太多挑戰(zhàn)了,一是算力,算力的開放程度、架構(gòu)、普惠程度,能不能用得起來,模型的部署,模型的訓(xùn)練,模型資源的調(diào)度、能耗等等還有就是在線服務(wù)能力,幾千人、幾萬人上平臺上點,平臺就阻塞了,對平臺要求在線化要求服務(wù)很高。

對企業(yè)來說,AGI的出現(xiàn),基礎(chǔ)設(shè)施會面臨哪些挑戰(zhàn)?一是算力不夠,小公司玩不起。二是模型訓(xùn)練,三是要有很多的數(shù)據(jù),四是就是人才,AI人才很吃香,價格很高。

對于一個企業(yè)來說,要適應(yīng)新的變化,一是要把現(xiàn)有的應(yīng)用變?yōu)橹悄芑?,二是模型建立自己行業(yè)的模型,三是智能的通用化。

我們做哪些呢?一是做工業(yè)互聯(lián)網(wǎng)平臺,多專業(yè)、跨領(lǐng)域的工業(yè)互聯(lián)網(wǎng)平臺,我們做了小十年了,這是最大的平臺,跟業(yè)務(wù)結(jié)合起來。

二是數(shù)據(jù)湖,把橫跨60多年的數(shù)據(jù)放進(jìn)去,結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都有,數(shù)據(jù)量是很龐大的。

三是人工智能通用平臺。中石油花很多錢建人工智能通用平臺,比如說TensorFlow、飛槳都可以重復(fù)用。

四是開發(fā)生產(chǎn)物聯(lián)網(wǎng)平臺,幾萬個數(shù)據(jù)采集做這個平臺,各個油田安裝使用。

五是高性能計算云平臺。

六是應(yīng)用軟件云平臺。應(yīng)用軟件是我們自己的,我們把云和軟件結(jié)合在一起。

七是大模型平臺。大家都在建自己行業(yè)的大模型。石油勘探,以前都是找一個區(qū)塊勘探,這樣實際上還是不夠的。如柴達(dá)木盆地,就要建一個大的數(shù)據(jù)庫,建一個大模型,以后在柴達(dá)木盆地搞勘探的時候就基于這個大模型,有指導(dǎo)意義。我們地震勘探大模型參數(shù)達(dá)到500萬就夠用了,上午有一位嘉賓講到了如何把模型進(jìn)行優(yōu)化。

八是AI框架開發(fā)平臺。

下一步的設(shè)想

一是統(tǒng)一頂層設(shè)計,要做好數(shù)字化轉(zhuǎn)型規(guī)劃。二是云計算平臺技術(shù)升級,三是多學(xué)科協(xié)同平臺,四是數(shù)據(jù)服務(wù)要進(jìn)行升級,五是共享平臺建設(shè)、物聯(lián)網(wǎng)平臺升級,六是數(shù)字孿生,數(shù)字孿生不是做監(jiān)控,數(shù)字孿生一定和物理世界有交互,要互動,要實時,七是數(shù)據(jù)集中共享,如果數(shù)據(jù)還在分散,那數(shù)字化轉(zhuǎn)型都是假的。數(shù)據(jù)集中并不簡單,統(tǒng)一管理就把成本降下去了,數(shù)據(jù)挖掘,數(shù)據(jù)利用就可以真正實現(xiàn)數(shù)據(jù)資產(chǎn)的管理。八是AI一定要跟生產(chǎn)數(shù)據(jù)湖集成。

新型IT基礎(chǔ)設(shè)施八大新

新型IT基礎(chǔ)設(shè)施有八大新的特點。

新底座。新型IT基礎(chǔ)設(shè)施是數(shù)智化轉(zhuǎn)型關(guān)鍵底座,需要更強算力、更普惠、更綠色、更少碳足跡。

新標(biāo)準(zhǔn),建立統(tǒng)一工業(yè)互聯(lián)網(wǎng)技術(shù)體系、建立統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)。

新平臺,加快升級、完善全連接+業(yè)務(wù)協(xié)同工作平臺+數(shù)據(jù)平臺+AI平臺集成實現(xiàn)數(shù)據(jù)共享+AI賦能。

新場景,堅持業(yè)務(wù)主導(dǎo),需求導(dǎo)向、創(chuàng)新驅(qū)動、平臺支撐。

新技術(shù),加強AR/MR、數(shù)字孿生技術(shù)應(yīng)用,構(gòu)建全連接、全交互、全感知的數(shù)字孿生體。

新起點,人工智能AI正從單點技術(shù)走向真正通用技術(shù)AGI。

新范式,從大模型走向超大模型從單模態(tài)走向多模態(tài)。

新生態(tài),探索與著名IT公司跨領(lǐng)域合作,形成開放共享創(chuàng)新應(yīng)用生態(tài)。

我的報告就是這些,謝謝大家!

分享到

xiesc

相關(guān)推薦