科學家們致力于探索DNA、蛋白質和其他生命體的“基礎構建”,以期獲得全新的洞察,而今日在NVIDIA GTC上發(fā)布的NVIDIA BioNeMo框架將為其研究提供加速,其全棧計算能力為醫(yī)療領域帶來了更多可能性。
NVIDIA BioNeMo框架用于訓練和部署超算規(guī)模的大型生物分子語言模型,幫助科學家更好地了解疾病,并為患者找到治療方法。該大型語言模型(LLM)框架將支持化學、蛋白質、DNA和RNA數(shù)據(jù)格式。
NVIDIA BioNeMo是NVIDIA Clara Discovery藥物研發(fā)框架、應用和AI模型集的一部分。
正如AI通過LLM來學習如何理解人類語言,該框架也在學習生物學和化學語言。NVIDIA BioNeMo使基于生物分子數(shù)據(jù)的大規(guī)模神經(jīng)網(wǎng)絡訓練更為輕松,助力研究人員發(fā)現(xiàn)生物序列中的新模式并獲得新洞察。研究人員可將這些洞察與生物特性或功能乃至人類健康狀況聯(lián)系起來。
NVIDIA BioNeMo框架使科學家能夠使用更大的數(shù)據(jù)集來訓練大規(guī)模語言模型,打造出性能更強大的神經(jīng)網(wǎng)絡。NVIDIA的GPU優(yōu)化軟件中心——NVIDIA GPU Cloud上將提供該框架的搶先體驗。
除語言模型框架之外,NVIDIA BioNeMo還提供一項云API服務,該服務將支持越來越多的預訓練AI模型。
BioNeMo框架支持更大的模型和更準確的預測
如今,使用自然語言處理模型來處理生物數(shù)據(jù)的科學家一般會訓練相對較小、需要自定義預處理的神經(jīng)網(wǎng)絡。通過BioNeMo,科學家可將其擴展為具有數(shù)十億參數(shù)的LLM,捕捉分子結構、蛋白質溶解度等信息。
BioNeMo是NVIDIA NeMo Megatron框架的擴展,可實現(xiàn)大規(guī)模自監(jiān)督語言模型的GPU加速訓練。這一針對特定領域的框架支持以SMILES化學結構標記表征的分子數(shù)據(jù)、以及以FASTA氨基酸和核酸序列字符串表征的分子數(shù)據(jù)。
OpenFold聯(lián)盟創(chuàng)始成員、哥倫比亞大學系統(tǒng)生物學系助理教授Mohammed AlQuraishi表示:“該框架使整個醫(yī)療和生命科學行業(yè)的研究人員都能利用快速增長的生物和化學數(shù)據(jù)集。這樣就能更輕松地發(fā)現(xiàn)和設計出精準針對疾病分子特征的治療方法?!?/p>
BioNeMo服務提供用于化學和生物學的LLM
NVIDIA BioNeMo LLM服務將為希望快速掌握數(shù)字化的生物學和化學領域應用的LLM的開發(fā)者提供四個預訓練語言模型。這些模型針對推理進行了優(yōu)化,并將通過NVIDIA DGX Foundry上運行的云端API提供搶先體驗。
未來,使用BioNeMo LLM服務的研究人員將能夠通過fine-tuning以及p-tuning等新技術,在幾小時內完成LLM模型的自定義,提高應用的準確性。相比原來動輒數(shù)百萬個樣本的數(shù)據(jù)集,p-tuning訓練方法只需要包含幾百個樣本的數(shù)據(jù)集。
初創(chuàng)企業(yè)、研究人員和制藥公司紛紛采用NVIDIA BioNeMo
生物技術和制藥行業(yè)的專家正在采用NVIDIA BioNeMo,為新藥研發(fā)提供支持。
Evozyne聯(lián)合創(chuàng)始人兼計算主管Andrew Ferguson表示:“BioNeMo框架使我們能夠在設計-構建-測試周期內,高效利用LLM的力量,基于數(shù)據(jù)進行蛋白質設計。這將直接影響我們新型功能性蛋白的設計,并將在人類健康和可持續(xù)發(fā)展方面得以應用。”
NVIDIA初創(chuàng)加速計劃成員、生物技術初創(chuàng)企業(yè)Peptone的機器學習負責人Istvan Redl表示:“隨著大型語言模型在蛋白質領域的應用日益廣泛,高效訓練LLM并快速調整模型架構的能力變得非常重要。我們相信BioNeMo框架將滿足可擴展性和快速實驗這兩大工程方面的需求?!?/p>
即刻注冊申請NVIDIA BioNeMo LLM服務或BioNeMo框架搶先體驗。如有意向親手體驗BioNeMo中的MegaMolBART化學模型,請向NVIDIA LaunchPad申請免費LLM訓練和部署實驗室。