加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國建設(shè)成為世界科技強(qiáng)國作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場、面向國家重大需求、面向人民生命健康,率先實現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設(shè)國際一流科研機(jī)構(gòu)。

——中國科學(xué)院辦院方針

首頁 > 科研進(jìn)展

科學(xué)家利用“數(shù)據(jù)+知識+AI”實現(xiàn)新靶標(biāo)藥物虛擬篩選

2024-06-17 上海藥物研究所
【字體:

語音播報

6月6日,中國科學(xué)院上海藥物研究所鄭明月課題組在《自然-機(jī)器智能》(Nature Machine Intelligence)上發(fā)表了題為Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling的研究論文。該團(tuán)隊利用等變圖神經(jīng)網(wǎng)絡(luò)來整合蛋白質(zhì)-配體相互作用相關(guān)的物理先驗知識,并使用多種數(shù)據(jù)增強(qiáng)、數(shù)據(jù)去冗余策略來避免模型過擬合潛在的數(shù)據(jù)分布偏差,構(gòu)建了通用蛋白質(zhì)-配體相互作用評分方法——EquiScore。在藥物虛擬篩選場景和先導(dǎo)化合物優(yōu)化場景中,EquiScore對訓(xùn)練未見的新靶標(biāo)表現(xiàn)出良好的泛化性能。此外,EquiScore的可解釋性分析為基于結(jié)構(gòu)的藥物設(shè)計提供了有價值的線索。?

精準(zhǔn)評估蛋白質(zhì)-配體相互作用對藥物發(fā)現(xiàn)至關(guān)重要。然而,開發(fā)可靠的評估方法是學(xué)術(shù)界和工業(yè)界的挑戰(zhàn)。近年來,人工智能技術(shù)在這一領(lǐng)域已取得進(jìn)展。以AlphaFold為代表的深度學(xué)習(xí)方法在蛋白質(zhì)三維結(jié)構(gòu)、蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測方面表現(xiàn)優(yōu)異。然而,在新靶標(biāo)的藥物虛擬篩選場景中,高精度的活性預(yù)測評分方法仍然匱乏。研究表明,深度學(xué)習(xí)模型傾向?qū)W習(xí)數(shù)據(jù)中的分布偏差,對分布內(nèi)的數(shù)據(jù)可以給出較好的性能指標(biāo)。而在實際應(yīng)用中,尤其面對訓(xùn)練集未見的新靶標(biāo)和化學(xué)多樣性空間,深度學(xué)習(xí)模型卻無法展現(xiàn)出良好的泛化效果。

該研究從兩方面來提高深度學(xué)習(xí)評分函數(shù)對新蛋白的預(yù)測能力。科研人員收集更多的陽性樣本,并使用重對接來生成更多樣的陽性樣本。同時,該研究使用交叉蛋白對接、分子生成模型來生成更多具有欺騙性和多樣性的誘餌分子,以減少構(gòu)建訓(xùn)練數(shù)據(jù)集時可能出現(xiàn)的類似物偏差、數(shù)據(jù)分布偏差及人工富集偏差。該團(tuán)隊提出了異質(zhì)圖構(gòu)建流程,可以通過引入新的節(jié)點(diǎn)和邊來整合分子間相互作用的物理先驗信息。該團(tuán)隊提出了信息感知注意力機(jī)制,用于整合不同信息中的相互作用。這些信息包括等變幾何信息、化學(xué)結(jié)構(gòu)信息、經(jīng)驗相互作用信息。該研究通過使用新構(gòu)建的數(shù)據(jù)集和等變異質(zhì)圖網(wǎng)絡(luò)來訓(xùn)練最終的評分模型EquiScore。

在訓(xùn)練集中未見過的蛋白質(zhì)上的虛擬篩選能力能夠更好地反映評分方法在實際應(yīng)用中的泛化性能。為了進(jìn)行充分比較,科研人員選擇了21種不同的評分方法作為基準(zhǔn)。近來報道的所有方法均是基于PDBbind數(shù)據(jù)集訓(xùn)練得到的,而該數(shù)據(jù)集與外部測試集具有高度的“軟重疊”,即很多蛋白均是在訓(xùn)練過程中模型已見過的。為了進(jìn)一步檢查這種數(shù)據(jù)泄漏是否導(dǎo)致性能高估,該研究將外部測試集涉及“軟重疊”的數(shù)據(jù)進(jìn)行去重,并對所有方法的結(jié)果進(jìn)行重新評估。DEKOIS2.0測試集上的分析結(jié)果顯示,EquiScore的排序能力和富集能力均位于第一位或者第二位。當(dāng)只考慮訓(xùn)練過程中未見過的蛋白時,EquiScore在所有結(jié)果上均位于第一位。上述研究表明,在嚴(yán)格的測試下,EquiScore的綜合排序能力超過了現(xiàn)有方法。此外,EquiScore對新蛋白的富集能力超過了傳統(tǒng)評分方法和深度學(xué)習(xí)方法。

進(jìn)一步,科研人員在外部的先導(dǎo)化合物優(yōu)化數(shù)據(jù)集上比較了EquiScore與其他方法對結(jié)構(gòu)類似物的活性排序能力;使用不同的對接方法生成蛋白-配體復(fù)合物結(jié)合構(gòu)象,評價了EquiScore作為評分方法的魯棒性。此外,研究人員分析了模型的可解釋性。

研究工作得到國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計劃、中國科學(xué)院青年創(chuàng)新促進(jìn)會會員項目、上海市科技重大專項、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊聯(lián)合研究項目的支持。

論文鏈接

EquiScore架構(gòu)圖

打印 責(zé)任編輯:侯茜

掃一掃在手機(jī)打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

    編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國科學(xué)院 版權(quán)所有
    京ICP備05002857號-1
    京公網(wǎng)安備110402500047號
    網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)
    編輯部郵箱:casweb@cashq.ac.cn