圖學習+分子表示學習,飛槳刷新藥物分子性質預測榜單?
摘要:
百度槳以圖學習框架(PGL)和生物計算平臺螺旋槳(PaddleHelix)登上權威排行榜OGB的多個分子性質預測任務,在AI藥物發(fā)現(xiàn)領域取得了新的技術突破。
正文:
化合物的生物活性篩選是現(xiàn)代藥物開發(fā)的重要環(huán)節(jié),其主要目的是在大量候選化合物中發(fā)現(xiàn)對某種藥物目標有活性的分子。傳統(tǒng)的活性篩選方法需要合成大量化合物進行生物實驗,整個過程的成本高,周期長,成功率低。通過AI技術進行藥物虛擬篩選,取代傳統(tǒng)的活性篩選方法,加快中間步驟,大幅度降低研<愛尬聊_百科知識大全>究開發(fā)成本。
國際權威排行榜OpenGraphbenchmark(OGB)的HIV和PCBA數(shù)據(jù)集包括各種生物活性實驗。其中,HIV數(shù)據(jù)集關注不同化合物能否抑制HIV病毒在細胞內的復制,PCBA數(shù)據(jù)集關注不同化合物對100多種疾病目標的有效性。以增強功能性SMN2蛋白表現(xiàn)的化合物為例,這些化合物可以改善SMN1蛋白突變故障引起的脊髓肌肉萎縮。成功預測化合物的性質對發(fā)現(xiàn)多種疾病的有效藥物具有重要意義。
最近,飛槳在OGB的兩個分子性質預測排行榜上名列前茅,在AI藥物發(fā)現(xiàn)領域取得了新的技術突破。
飛槳登頂OGB分子性質預測數(shù)據(jù)集HIV和PCBA
基于飛槳能力實現(xiàn)分子性質預測
飛槳基于圖學習框架PGL,使用深度圖神經(jīng)網(wǎng)絡(GNN),配合生物計算平臺螺旋槳PaddleHelix對藥物發(fā)現(xiàn)領域的理解,設計自監(jiān)督學習任務學習化合物分子表示,并應用到分子性質預測中。核心技術包括:
分子學習為了輸入化合物分子作為圖神經(jīng)網(wǎng)絡方法,首先需要特征化化合物分子。OGB已經(jīng)為每個化合物提供了一系列基于圖形結構的結點和邊緣特征,可以對應化合物的原子和化學鍵,但這些特征比較微觀,不能表示化合物分子的宏觀化學特征。飛槳通過表示學習的方法,首次將分子的宏觀化學特性(官能團、分子指紋等信息)與圖神經(jīng)網(wǎng)絡相結合,獲得融合宏觀化學特性的分子表示,利用該分子表示獲得了ogbg-molhiv的尖。
圖學技術APPNP是基于個性化PageRank改進的特征傳播算法,通過反復的方式分析了類似PersonalPageRank。APPNP算法不會引入額外的模式參數(shù),可以很好地調節(jié)局部信息和多層次的鄰居關系。通過將GINEplus和APPNP技術結合起來,在不引入額外的模型參數(shù)的情況下,獲得更好的模型表現(xiàn)能力,獲得ogbg-molpcba的首位。
飛槳圖學習框架PGL
百度深度學習平臺飛槳PaddlePaddle開源圖學習框架PGL v2.0版本,全面支持動態(tài)圖機制,可支持百億規(guī)模大圖,用戶可以通過PGL實現(xiàn)高效而又滿足工業(yè)應用需求的圖神經(jīng)網(wǎng)絡。PGL支持的百度內外部業(yè)務也是遍地開花,全面覆蓋推薦系統(tǒng)、搜索引擎、智慧金融、智能地圖、安全風控、生物醫(yī)藥等場景。
生物計算螺旋槳PaddleHelix
螺旋槳PaddleHelix是基于百度深度學習平臺飛槳的生物計算平臺。提供了包括RNA二級結構預測、大規(guī)模分子和蛋白質表示學習、藥物靶點親和力預測、ADMET成藥性預測等,在新藥研發(fā)和疫苗設計環(huán)節(jié)具有廣闊應用前景的技術能力。
螺旋槳PaddleHelix可以幫助生物學、藥物化學、計算機交叉學科背景的學習者、研究者和合作伙伴更加方便地構建AI算法模型。螺旋槳PaddleHelix生物計算平臺保持開源開放原則,與合作伙伴共同建設共享,將來形成面向行業(yè)的生物計算生態(tài)和服務。
想獲得更多算法的技術細節(jié),請關注PGL【http://github.com/PaddlePaddle/PGL】和PaddleHelix【http://github.com/PadlePadle/PadleHelix】,比賽相關代碼同時開放。