【ZiDongHua 之自動(dòng)化學(xué)院派收錄關(guān)鍵詞: 數(shù)據(jù)融合 機(jī)器學(xué)習(xí) 生物信息學(xué)】
  
  科學(xué)通報(bào)|清華大學(xué)魯志團(tuán)隊(duì)綜述復(fù)雜疾病中多組學(xué)多模態(tài)數(shù)據(jù)的生物信息學(xué)研究進(jìn)展
  
  在當(dāng)今生物醫(yī)學(xué)研究的世界中,高通量測序技術(shù)的快速發(fā)展為復(fù)雜疾病的研究帶來了前所未有的機(jī)遇。
  
  近日,清華大學(xué)魯志教授團(tuán)隊(duì)在《科學(xué)通報(bào)》發(fā)表題為“復(fù)雜疾病中多組學(xué)多模態(tài)數(shù)據(jù)的生物信息學(xué)研究進(jìn)展”的評(píng)述文章,期望為廣大研究者提供一幅多組學(xué)和多模態(tài)數(shù)據(jù)整合的全景圖,助力研究者在精準(zhǔn)醫(yī)療的道路上邁出堅(jiān)實(shí)步伐。
  
  在文章開篇,作者以詳實(shí)的筆觸介紹了各種類型的組學(xué)數(shù)據(jù)的概念及其在復(fù)雜疾病研究中的重要性。不同組學(xué)數(shù)據(jù)各展所長,共同揭示了疾病的多個(gè)層面?;蚪M學(xué)通過分析基因序列揭示了與疾病相關(guān)的遺傳背景和突變;轉(zhuǎn)錄組學(xué)通過研究表達(dá)模式揭示了與疾病相關(guān)的基因調(diào)控關(guān)系;蛋白質(zhì)組學(xué)關(guān)注蛋白質(zhì)的表達(dá)、修飾和相互作用;代謝組學(xué)通過代謝物變化反映了疾病前后代謝途徑的調(diào)整;放射組學(xué)通過醫(yī)學(xué)成像展示了疾病的誘導(dǎo)性變化。整合和分析這些組學(xué)數(shù)據(jù),不僅彌補(bǔ)了單一組學(xué)研究的不足,更為研究者理解疾病的發(fā)病機(jī)制和發(fā)展過程提供了全新視角。接下來,作者詳細(xì)介紹了與復(fù)雜疾病相關(guān)的多組學(xué)數(shù)據(jù)庫的構(gòu)建和應(yīng)用,這些數(shù)據(jù)庫涵蓋了癌癥、心腦血管疾病、器官纖維化、慢性腎病、阿爾茨海默病和炎癥性腸病等多種復(fù)雜疾病,為研究者提供了寶貴的數(shù)據(jù)資源。通過對(duì)這些數(shù)據(jù)庫的深入分析,研究人員能夠更有效地挖掘和利用多組學(xué)數(shù)據(jù),為疾病的診斷和治療提供科學(xué)依據(jù)。
 
  
  圖1 復(fù)雜疾病研究中多組學(xué)方法
  
  文中,作者對(duì)多組學(xué)整合方法進(jìn)行了系統(tǒng)分類,將現(xiàn)有的多組學(xué)整合方法系統(tǒng)地分為兩類:基于關(guān)聯(lián)分析和網(wǎng)絡(luò)以及基于數(shù)據(jù)矩陣和機(jī)器學(xué)習(xí)方法。基于關(guān)聯(lián)分析和網(wǎng)絡(luò)的方法使用關(guān)聯(lián)分析或復(fù)雜網(wǎng)絡(luò)分析來識(shí)別不同組學(xué)之間的內(nèi)在聯(lián)系,從而發(fā)現(xiàn)與表型相關(guān)的生物標(biāo)志物。基于數(shù)據(jù)矩陣和機(jī)器學(xué)習(xí)方法是指利用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型實(shí)現(xiàn)數(shù)據(jù)融合,以進(jìn)行聚類或分類任務(wù),同時(shí)揭示多組學(xué)數(shù)據(jù)之間的固有關(guān)系,識(shí)別與疾病相關(guān)的生物標(biāo)志物。基于數(shù)據(jù)矩陣和機(jī)器學(xué)習(xí)方法進(jìn)一步分為早期整合、中期整合和后期整合。早期整合方法是指將多組學(xué)數(shù)據(jù)合并成一個(gè)聯(lián)合矩陣,然后應(yīng)用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型進(jìn)行分類。中期整合方法是指對(duì)每個(gè)組學(xué)數(shù)據(jù)單獨(dú)建模,然后整合轉(zhuǎn)換后的矩陣或模型。后期整合方法是指每個(gè)組學(xué)數(shù)據(jù)單獨(dú)建模,然后合并模型輸出結(jié)果。作者不僅闡述了這些方法的原理和特點(diǎn),還通過具體案例展示了它們?cè)趯?shí)際研究中的應(yīng)用。作者對(duì)多組學(xué)整合方法的整理為研究者提供了清晰的研究路徑,有助于更好地挖掘多組學(xué)數(shù)據(jù)中的深層次信息。
 
  
  圖2 多組學(xué)整合工作流程
  
  在討論實(shí)際應(yīng)用時(shí),作者列舉了多組學(xué)整合模型在疾病篩查、亞型分類、預(yù)后評(píng)估和藥物反應(yīng)預(yù)測等多個(gè)方面的應(yīng)用,展現(xiàn)了多組學(xué)整合技術(shù)在臨床實(shí)踐中的廣闊前景。這些應(yīng)用案例不僅證明了多組學(xué)整合技術(shù)的有效性,也為未來的研究方向提供了啟發(fā)。
 
  
  圖3 多組學(xué)整合方法概述
  
  最后,作者從樣本、數(shù)據(jù)和模型三個(gè)層面對(duì)多組學(xué)整合過程中面臨的挑戰(zhàn)進(jìn)行了深入剖析。作者指出,在樣本層面,數(shù)據(jù)的匹配不一致性問題嚴(yán)重制約了整合策略的實(shí)際應(yīng)用效果。在數(shù)據(jù)層面,面對(duì)數(shù)據(jù)的超高維度、噪聲干擾以及異質(zhì)性問題,迫切需要采用更為高效的深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)數(shù)據(jù)的有效融合。而在模型層面,我們面臨的主要挑戰(zhàn)包括模型的解釋性不足、計(jì)算效率有待提升以及隱私保護(hù)方面的難題。盡管存在諸多難題,但研究人員正通過不懈努力,開發(fā)新的算法、優(yōu)化數(shù)據(jù)處理流程、提高模型的可解釋性,以期在保證數(shù)據(jù)安全的前提下,提升多組學(xué)整合技術(shù)的應(yīng)用效果。
  
  清華大學(xué)生命科學(xué)學(xué)院魯志教授為本文的通訊作者,劉曉帆博士為本文的第一作者。
  
  文章鏈接:
  
  https://www.sciengine.com/CSB/doi/10.1360/TB-2024-0416