【ZiDongHua 之創(chuàng)新自科文收錄關鍵詞:人工智能  大模型 自然語言處理
  
  紫冬學術 | 清華大學自動化系生命基礎模型實驗室在《自然-方法》合作發(fā)表人工智能細胞大模型
  
  近年來,人工智能領域在大模型方面取得了顯著進展,這些模型通過預訓練的方式從大規(guī)模、多來源的數據中提取深層次規(guī)律,進而能夠作為“基礎模型”服務領域的多樣化任務。例如,語言大模型通過學習大量文本數據,掌握了理解和識別語言的能力,引領了自然語言處理領域的新一輪革命。類似地,生命科學中的細胞的DNA序列、基因表達等屬性也可以被視為一種細胞“語言”,如果能夠基于這種細胞“語言”開發(fā)人工智能細胞大模型,將有望為生命科學和醫(yī)學研究提供全新研究范式和革命性研究工具。
  
  自動化系生命基礎模型實驗室主任張學工教授、電子系/AIR馬劍竹教授和百圖生科宋樂博士合作,建立了一個名為scFoundation的細胞大模型。該模型基于5000萬個細胞的基因表達數據進行訓練,擁有1億參數,能夠同時處理約20000個基因。作為基礎模型,它在“虛擬藥物試驗”等多種生物醫(yī)學下游任務中表現出卓越的性能提升,提供了人工智能在單細胞研究中的新范式(圖1)。研究成果于2023年5月完成,2024年6月6日以單細胞轉錄組大規(guī)?;A模型( Large-scale foundation model on single-cell transcriptomics) 為題,正式發(fā)表于Nature Methods期刊上。
 
  
  圖1 scFoundation模型及下游應用場景
  
  細胞“語言”與自然語言不同,存在著特征高維度、取值連續(xù)且稀疏等難點。為此,研究團隊針對性設計模型架構,使scFoundation的值編碼模塊可直接將連續(xù)的基因表達值轉化為向量,并通過設計一個基于Transformer的非對稱模型架構,在保持參數規(guī)模不變的同時大幅提高了計算效率。此外,考慮到單細胞數據質量存在明顯差異的特點,研究團隊還設計了一種由低質量數據恢復高質量數據的預訓練任務,進一步增強了預訓練模型對不同來源下游數據的適應能力。
  
  在實際應用中,scFoundation模型支持“開箱即用”和“微調”兩種模式。在“開箱即用”模式下,得益于其獨特的預訓練任務,該模型能直接用于提升細胞數據的質量,在不需要進一步調整的情況下便可達到或超越現有方法的效果。此外,用戶可以利用scFoundation提取細胞的預訓練表征,該表征可以用于識別細胞類型特異基因模塊和轉錄因子,并可廣泛應用于“虛擬藥物試驗”等下游任務中。實驗測試結果表明,利用scFoundation模型可以顯著提升細胞癌癥藥物反應、細胞擾動實驗等任務的性能。在“微調”模式下,scFoundation在細胞類型標注等任務上的表現遠超傳統方法。研究團隊通過多項實驗分析了模型中不同模塊設計對性能的具體影響,相關模型細節(jié)已在NeurIPS 2024的xTrimoGene模型文章中發(fā)表。目前模型權重及代碼已開源,同時也提供了模型API供在線輕量使用。
  
  綜上所述,scFoundation模型為生命科學基礎研究、細胞擾動響應預測、藥物靶點發(fā)現等領域提供了創(chuàng)新方法工具,并在模型架構、訓練框架和下游示范應用體系等方面為細胞大模型研究提供了新的思路和方法,成功地拓展了單細胞領域基礎模型的邊界,為開展數基空間中的虛擬藥物實驗等未來研究奠定了基礎。
  
  自動化系生命基礎模型實驗室主任張學工教授、電子系和智能產業(yè)研究院馬劍竹教授、百圖生科宋樂博士為通訊作者。自動化系博士研究生郝敏升為該論文的第一作者。