【ZiDongHua 之 創(chuàng)新自科文:生物信息學  清華大學 、清華大學自動化系、人工智能 、神經(jīng)網(wǎng)絡(luò)、 深度神經(jīng)網(wǎng)絡(luò)模型、 多面神經(jīng)元 】

 

 

清華大學自動化系汪小我團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法

 

 

近日,清華大學自動化系汪小我團隊與美國斯坦福大學統(tǒng)計系王永雄團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法。該方法針對廣泛應(yīng)用于基因調(diào)控序列研究的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,通過剖析神經(jīng)網(wǎng)絡(luò)中的多面神經(jīng)元機制(multifaceted neuron),開發(fā)了神經(jīng)網(wǎng)絡(luò)解釋算法(NeuronMotif),實現(xiàn)了從神經(jīng)元中自動歸納和提取轉(zhuǎn)錄因子結(jié)合位點等關(guān)鍵序列模式(Motif)及其組合、次序、間距等基因調(diào)控序列編碼規(guī)則。該方法能夠幫助研究者更加深入地理解基因調(diào)控編碼規(guī)律,同時為神經(jīng)網(wǎng)絡(luò)模型的解釋提供了新手段。

 

 

該研究發(fā)現(xiàn),CNN解釋困難的一個主要原因在于深層神經(jīng)元大多都是“多面神經(jīng)元”(multifaceted neuron)。這種神經(jīng)元能夠同時被多種不同序列模式激活,直接對這些混合模式進行可視化往往只能獲得難以被人理解的結(jié)果。通過深入分析,該研究發(fā)現(xiàn)CNN中的最大池化結(jié)構(gòu)是導致深層神經(jīng)元識別多種序列模式的關(guān)鍵原因。具有不同模式的序列特征在被輸入到神經(jīng)網(wǎng)絡(luò)以后,會逐層計算得到每一層網(wǎng)絡(luò)對應(yīng)的特征圖(feature map),這些特征圖在通過最大池化層后會丟失單堿基精度空間分辨率,導致輸出的特征圖變得高度相似,難以對這些混合模式進行解耦。

 

針對多面神經(jīng)元問題及其形成機制,研究團隊提出了Neuron Motif方法,該方法首先基于蒙特卡洛采樣和遺傳算法得到大量能充分激活神經(jīng)元的序列集合,然后計算這些序列在神經(jīng)網(wǎng)絡(luò)各層的特征圖,并通過反向逐層聚類的方式分離不同序列模式所對應(yīng)的特征圖,將具有不同模式的序列劃分到不同的子集中,最終通過對每個子集的可視化獲得易于理解的序列模式特征。在此基礎(chǔ)上,該方法構(gòu)建了基于結(jié)構(gòu)化語法樹的自動化知識提取方法,從數(shù)據(jù)中自動歸納轉(zhuǎn)錄因子結(jié)合位點序列模式、組合模式、間距、次序等調(diào)控序列語法規(guī)則。

 

NeuronMotif歸納提取的調(diào)控序列語法規(guī)則能夠得到文獻和多種生物組學數(shù)據(jù)的支撐和驗證。通過對人類基因組數(shù)據(jù)的學習,NeuronMotif發(fā)現(xiàn)了數(shù)百種序列模式,與JASPAR數(shù)據(jù)庫中的已知轉(zhuǎn)錄因子motif序列模式高度匹配;通過NeuronMotif獲取的深層神經(jīng)元語法規(guī)則與多種細胞/組織中的ATAC-seqfootprinting模式高度匹配,并得到了基因表達數(shù)據(jù)(RNA-seq)的支持;序列模式的組合和排布等規(guī)律在跨物種基因組序列上具有顯著的序列保守性。

 

綜上所述,NeuronMotif為我們提供了一種解讀深度神經(jīng)網(wǎng)絡(luò)模型中深層神經(jīng)元識別模式的新方法。此外,NeuronMotif的解釋結(jié)果還可用于人工神經(jīng)網(wǎng)絡(luò)的診斷和改進,幫助降低神經(jīng)網(wǎng)絡(luò)調(diào)參的困難。借助該方法,我們可以通過神經(jīng)網(wǎng)絡(luò)的訓練和解釋,從數(shù)據(jù)中獲取可供人類專家理解的知識,幫助我們更加深入地理解胚胎發(fā)育、疾病發(fā)生等生物過程中的基因調(diào)控規(guī)律,并為基因治療等應(yīng)用中定制化逆向構(gòu)造人工基因調(diào)控序列提供支撐。

 

研究成果以“NeuronMotif: 通過深度神經(jīng)網(wǎng)絡(luò)的逐層解耦破譯基因順式調(diào)控編碼”(NeuronMotif: Deciphering cis-regulatory codes by -wise demixing of deep neural networks)為題發(fā)表在《美國科學院院刊》(PNAS)上。

清華大學自動化系博士后魏征為本文的第一作者,清華大學自動化系汪小我教授和美國斯坦福大學統(tǒng)計系王永雄教授為本文的共同通訊作者。清華大學李衍達教授、張學工教授、江瑞教授、魏磊助理研究員、花奎博士,斯坦福大學博士后馬士寧也對本文作出了重要貢獻。該研究得到了國家自然科學基金、國家重點研發(fā)計劃、清華大學國強研究院、北京智源人工智能研究院等的資助。

 

 

論文鏈接(點擊文末“閱讀原文”):

https://www.pnas.org/doi/10.1073/pnas.2216698120