OGB是目前公認的圖學習基準數(shù)據(jù)集代表,由斯坦福大學Jure Leskovec教授團隊建立,于2019年國際頂級學術會議NeurIPS上正式開源。其囊括了節(jié)點性質預測、邊性質鏈接預測、圖性質預測等圖學習領域眾多權威賽道,以質量高、規(guī)模大、場景復雜、難度高著稱,素有圖學習領域“ImageNet”之稱,吸引了包括微軟、Deepmind、Facebook、阿里巴巴、百度、字節(jié)跳動、斯坦福、MIT、北京大學等眾多頂尖高校和科技公司參與。
?分子屬性預測過程示意圖
圖神經(jīng)網(wǎng)絡(GNN)由于其強大的非結構化數(shù)據(jù)的處理能力受到了工業(yè)界以及學術屆的廣泛關注。此次,騰訊優(yōu)圖實驗室參與了圖屬性預測賽道下Ogbg-molhiv、Ogbg-molpcba等四項極具價值的任務。其中,騰訊優(yōu)圖實驗室在transformer和GNN結合的分子建?;A上針對分子的2D-3D結構建模、數(shù)據(jù)擴充、訓練算法等方向進行了一系列改進,例如改進的FLAG算法、圖插值算法等。
值得期待的是,該類技術近年來也逐漸為新能源、生物制藥等產(chǎn)業(yè)帶來更多AI助力。以新能源產(chǎn)業(yè)鋰電池研發(fā)為例,在新型電解液篩選中通過預測分子屬性可以擴大分子篩選范圍、減少研發(fā)周期,這方面AI相對傳統(tǒng)仿真技術可以有萬倍以上的加速。在生物制藥產(chǎn)業(yè),通過AI對分子建??梢灶A測小分子藥物效果加速藥物研發(fā),例如在新冠疫苗研發(fā)中AI技術也起到了加速作用。