超長序列,超快預測!深勢科技聯手阿里云,AI蛋白質預測再下一城
(圖:新冠病毒研究重點之一三聚體結構的刺突蛋白)
摘要:強強聯合,突破 AI 蛋白質預測模型推理性能瓶頸,支持最高 6.6k 長氨基酸序列蛋白質的預測計算,達到目前已知最優推理效果。
近日,深勢科技與阿里云機器學習 PAI 團隊聯手,通過全新的蛋白質結構預測推理加速方案 FoldAcc,結合深勢Uni-Fold 最新模型代碼和參數,將單次預測能支持的最大氨基酸序列長度提升至 6.6k,覆蓋99.992%已知的蛋白序列,同時推理速度顯著提升,達到目前已知的最佳推理優化效果,將為 AI 預測蛋白質結構落地應用提供重要助力。
以新冠病毒研究重點之一——具有三聚體結構的刺突蛋白為例,其氨基酸序列典型總長度接近4k,原版 AlphaFold 會因為超出顯存限制(OOM)而無法進行預測計算,使用 Uni-Fold + FoldAcc 則能在10分鐘左右完成 AI 推理計算。
自2020年DeepMind 推出基于深度學習模型的 AlphaFold2 以來,AI技術輔助蛋白質結構精確預測的相關研究備受關注,產學研界不斷涌現創新成果。然而,在推動 AI 蛋白質結構預測規模化、產業化落地進程中,基礎設施及工具完善性、AI 模型開發與部署效率等問題,仍然是橫亙在研究者面前的難題。
2022年8月,深勢科技升級并開源Uni-Fold 項目,成功復現了AlphaFold2、AlphaFold-Multimer 模型的全尺寸從頭訓練,并通過多項效率優化,并將 AlphaFold 訓練速度提升220%,超越 OpenFold、FastFold 等方案,惠及更多研究者。
其中,針對困擾業界已久的 Evoformer 神經網絡結構推理性能瓶頸問題,深勢科技與阿里云PAI 團隊,基于在 AI 模型系統優化領域的長期積累,融合多卡并行、混合精度、編譯優化等多項推理優化技術,使 Uni-Fold 訓練的模型能進行多卡推理加速,并支持計算更長的氨基酸序列。
典型加速效果的測試結果如下(基于A100-80G GPU,并啟用bf16)
Uni-Fold 升級開源,支持復合物訓練
作為生命科學領域重要的基礎問題,蛋白質結構研究關系到癌癥預警、靶向藥物研究、衰老等臨床醫學和生命科學課題。傳統的蛋白質結構研究手段,如:X射線晶體學、冷凍電鏡等,需要消耗大量時間和資源。如何快速高效并且能夠規?;仡A測蛋白質結構,一直是研究者們探尋求解的重要問題。
2021年12月,深勢科技推出 Uni-Fold v1.0.0,國際首次復現了AlphaFold2官方代碼的全尺寸從頭訓練,并開源了訓練與推理代碼;2022年8月,Uni-Fold升級并開源了最新代碼與模型參數,完整支持蛋白質單體、復合物結構預測模型的推理與訓練。
此次開源的Uni-Fold基于PyTorch復現并改進的AlphaFold (-Multimer) 模型,支持從頭訓練和推理部署,并且在Protein Data Bank(PDB)最新公布的、模板相似度小于40%的單體與復合物測試集上,都取得了與同類開源項目一致或更優的準確率。
此外Uni-Fold也進行了多項效率優化,將訓練時間由11天縮短至約4天,顯著優于其他同類開源項目。
機器學習平臺 PAI 提供全鏈路 AI 工程支撐
阿里云機器學習平臺PAI 為 Uni-Fold 項目提供了完善的AI工程能力。PAI 是國內唯一連續入選 Gartner 數據科學與機器學習平臺報告的機器學習/深度學習平臺,面向AI開發及應用全鏈路提供全面的工程化服務,并具備豐富的場景化落地實踐。
針對模型推理優化場景,PAI自研的通用推理加速器 PAI-Blade 能在不同業務場景下,通過模型系統聯合優化,使模型達到最優推理性能,兼容主流機器學習框架,適配GPU、CPU、端側設備等多類型加速設備。
其中,PAI-Blade 核心組件 BladeDISC 具備業界領先的動態尺寸模型優化、大顆粒度算子融合等編譯優化技術,在阿里巴巴集團內外客戶的實際生產場景廣泛應用,助力實現高性價比的 AI 應用部署。2022年2月,BladeDISC 項目正式開源。
未來,為前沿科研提供更好用的AI基礎設施
以 AI 蛋白質結構預測為典型代表,AI for Science 的科學研究新范式正取得越來越多突破,人工智能與生命科學、物理、化學等領域的技術交織,將為科學研究和產業進步帶來極大推動,也對AI基礎技術與平臺應用提出了新挑戰。
深勢科技是 AI for Science 科學研究范式的先行者,阿里云機器學習平臺 PAI 是國內應用最廣泛的機器學習平臺之一,我們將持續為生物醫藥、能源、材料等領域的研究與產業應用提供更好用的AI基礎設施,共同推動 AI for Science 領域的技術生態建設。
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com