語音播報
近日,中國科學技術大學生命科學與醫(yī)學部教授瞿昆課題組、數學科學學院教授陳發(fā)來課題組以及北京生命科學研究所研究員黎斌課題組合作完成了一項成果。該團隊分析了百萬量級單細胞多組學數據,系統(tǒng)評估了14種單細胞模態(tài)預測算法和18種單細胞多組學整合算法的性能。相關研究成果以Benchmarking algorithms for single-cell multi-omics prediction and integration為題,在線發(fā)表在《自然-方法》(Nature Methods)上。
單細胞多組學技術的發(fā)展,為探索細胞功能和復雜的基因調控機制提供了機遇。然而,濕實驗方法通常面臨著高成本、數據質量有限及批次效應等挑戰(zhàn)。為克服這些局限,生物信息學家基于統(tǒng)計模型和人工智能技術,開發(fā)了多種算法。這些算法能夠利用單細胞轉錄組數據推斷同一細胞內的蛋白質豐度和染色質可及性信息,并通過將不同模態(tài)的數據映射到統(tǒng)一的特征空間實現(xiàn)數據整合以去除批次效應。這些工具提升了現(xiàn)有單細胞數據的解析能力。然而,面對海量數據和眾多算法,科研人員往往難以判斷哪些工具最適合他們的研究工作。因此,對這些算法進行基準測試尤為重要。
該研究收集了47個數據集的上百萬個單細胞多組學數據,涵蓋多個生物樣本和實驗平臺。研究設計了一套全面的評估流程,結合算法的準確性、魯棒性和計算資源消耗等多維度指標,評估了領域內的常用算法。結果顯示,在蛋白質豐度預測方面,totalVI和scArches表現(xiàn)最優(yōu)異;在染色質可及性預測中,LS_Lab算法排名領先;在多組學整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現(xiàn)突出,而totalVI和UINMF在水平整合和馬賽克整合任務中展現(xiàn)出優(yōu)異性能。該工作為算法設計提供了新思路,并為未來多組學數據的分析和應用奠定了基礎。同時,為幫助科研人員選擇合適的分析工具,該團隊在GitHub上發(fā)布了完整的分析流程、代碼和測試數據集,以供同行使用和改進。
進一步,科研人員探討了這些算法的數學原理,發(fā)現(xiàn)了降噪處理是提高單細胞數據預測精度的關鍵。在性能評估中,機器學習算法以及基于概率模型的深度學習算法表現(xiàn)出優(yōu)勢。同時,研究提出,現(xiàn)有模態(tài)預測算法在某些關鍵蛋白的預測性能上有待提升,染色質可及性預測的準確性需要進一步優(yōu)化。
研究工作得到國家重點研發(fā)計劃和國家自然科學基金等的資助,并獲得中國科大超級計算中心與生命科學學院生物信息學中心的計算資源支持。
評估流程示意圖
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有
京ICP備05002857號-1
京公網安備110402500047號
網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn