科學(xué)家們致力于探索DNA、蛋白質(zhì)和其他生命體的“基礎(chǔ)構(gòu)建”,以期獲得全新的洞察,而今日在NVIDIA GTC上發(fā)布的NVIDIA BioNeMo框架將為其研究提供加速,其全棧計(jì)算能力為醫(yī)療領(lǐng)域帶來了更多可能性。
NVIDIA BioNeMo框架用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型,幫助科學(xué)家更好地了解疾病,并為患者找到治療方法。該大型語言模型(LLM)框架將支持化學(xué)、蛋白質(zhì)、DNA和RNA數(shù)據(jù)格式。
NVIDIA BioNeMo是NVIDIA Clara Discovery藥物研發(fā)框架、應(yīng)用和AI模型集的一部分。
正如AI通過LLM來學(xué)習(xí)如何理解人類語言,該框架也在學(xué)習(xí)生物學(xué)和化學(xué)語言。NVIDIA BioNeMo使基于生物分子數(shù)據(jù)的大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練更為輕松,助力研究人員發(fā)現(xiàn)生物序列中的新模式并獲得新洞察。研究人員可將這些洞察與生物特性或功能乃至人類健康狀況聯(lián)系起來。
NVIDIA BioNeMo框架使科學(xué)家能夠使用更大的數(shù)據(jù)集來訓(xùn)練大規(guī)模語言模型,打造出性能更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)。NVIDIA的GPU優(yōu)化軟件中心——NVIDIA GPU Cloud上將提供該框架的搶先體驗(yàn)。
除語言模型框架之外,NVIDIA BioNeMo還提供一項(xiàng)云API服務(wù),該服務(wù)將支持越來越多的預(yù)訓(xùn)練AI模型。
BioNeMo框架支持更大的模型和更準(zhǔn)確的預(yù)測
如今,使用自然語言處理模型來處理生物數(shù)據(jù)的科學(xué)家一般會訓(xùn)練相對較小、需要自定義預(yù)處理的神經(jīng)網(wǎng)絡(luò)。通過BioNeMo,科學(xué)家可將其擴(kuò)展為具有數(shù)十億參數(shù)的LLM,捕捉分子結(jié)構(gòu)、蛋白質(zhì)溶解度等信息。
BioNeMo是NVIDIA NeMo Megatron框架的擴(kuò)展,可實(shí)現(xiàn)大規(guī)模自監(jiān)督語言模型的GPU加速訓(xùn)練。這一針對特定領(lǐng)域的框架支持以SMILES化學(xué)結(jié)構(gòu)標(biāo)記表征的分子數(shù)據(jù)、以及以FASTA氨基酸和核酸序列字符串表征的分子數(shù)據(jù)。
OpenFold聯(lián)盟創(chuàng)始成員、哥倫比亞大學(xué)系統(tǒng)生物學(xué)系助理教授Mohammed AlQuraishi表示:“該框架使整個(gè)醫(yī)療和生命科學(xué)行業(yè)的研究人員都能利用快速增長的生物和化學(xué)數(shù)據(jù)集。這樣就能更輕松地發(fā)現(xiàn)和設(shè)計(jì)出精準(zhǔn)針對疾病分子特征的治療方法?!?/p>
BioNeMo服務(wù)提供用于化學(xué)和生物學(xué)的LLM
NVIDIA BioNeMo LLM服務(wù)將為希望快速掌握數(shù)字化的生物學(xué)和化學(xué)領(lǐng)域應(yīng)用的LLM的開發(fā)者提供四個(gè)預(yù)訓(xùn)練語言模型。這些模型針對推理進(jìn)行了優(yōu)化,并將通過NVIDIA DGX Foundry上運(yùn)行的云端API提供搶先體驗(yàn)。
未來,使用BioNeMo LLM服務(wù)的研究人員將能夠通過fine-tuning以及p-tuning等新技術(shù),在幾小時(shí)內(nèi)完成LLM模型的自定義,提高應(yīng)用的準(zhǔn)確性。相比原來動(dòng)輒數(shù)百萬個(gè)樣本的數(shù)據(jù)集,p-tuning訓(xùn)練方法只需要包含幾百個(gè)樣本的數(shù)據(jù)集。
初創(chuàng)企業(yè)、研究人員和制藥公司紛紛采用NVIDIA BioNeMo
生物技術(shù)和制藥行業(yè)的專家正在采用NVIDIA BioNeMo,為新藥研發(fā)提供支持。
Evozyne聯(lián)合創(chuàng)始人兼計(jì)算主管Andrew Ferguson表示:“BioNeMo框架使我們能夠在設(shè)計(jì)-構(gòu)建-測試周期內(nèi),高效利用LLM的力量,基于數(shù)據(jù)進(jìn)行蛋白質(zhì)設(shè)計(jì)。這將直接影響我們新型功能性蛋白的設(shè)計(jì),并將在人類健康和可持續(xù)發(fā)展方面得以應(yīng)用?!?/p>
NVIDIA初創(chuàng)加速計(jì)劃成員、生物技術(shù)初創(chuàng)企業(yè)Peptone的機(jī)器學(xué)習(xí)負(fù)責(zé)人Istvan Redl表示:“隨著大型語言模型在蛋白質(zhì)領(lǐng)域的應(yīng)用日益廣泛,高效訓(xùn)練LLM并快速調(diào)整模型架構(gòu)的能力變得非常重要。我們相信BioNeMo框架將滿足可擴(kuò)展性和快速實(shí)驗(yàn)這兩大工程方面的需求?!?/p>
即刻注冊申請NVIDIA BioNeMo LLM服務(wù)或BioNeMo框架搶先體驗(yàn)。如有意向親手體驗(yàn)BioNeMo中的MegaMolBART化學(xué)模型,請向NVIDIA LaunchPad申請免費(fèi)LLM訓(xùn)練和部署實(shí)驗(yàn)室。