創(chuàng)新自化成

生物信息學|清華大學自動化系汪小我團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法

時間：2023-04-17 17:29:20 發(fā)布：自動化網(wǎng) 來源：清華大學自動化系第一對焦：生物信息學

【ZiDongHua 之創(chuàng)新自科文：生物信息學清華大學、清華大學自動化系、人工智能、神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)模型、多面神經(jīng)元】

清華大學自動化系汪小我團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法

近日，清華大學自動化系汪小我團隊與美國斯坦福大學統(tǒng)計系王永雄團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法。該方法針對廣泛應(yīng)用于基因調(diào)控序列研究的卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型，通過剖析神經(jīng)網(wǎng)絡(luò)中的多面神經(jīng)元機制（multifaceted neuron），開發(fā)了神經(jīng)網(wǎng)絡(luò)解釋算法（NeuronMotif），實現(xiàn)了從神經(jīng)元中自動歸納和提取轉(zhuǎn)錄因子結(jié)合位點等關(guān)鍵序列模式（Motif）及其組合、次序、間距等基因調(diào)控序列編碼規(guī)則。該方法能夠幫助研究者更加深入地理解基因調(diào)控編碼規(guī)律，同時為神經(jīng)網(wǎng)絡(luò)模型的解釋提供了新手段。

該研究發(fā)現(xiàn)，CNN解釋困難的一個主要原因在于深層神經(jīng)元大多都是“多面神經(jīng)元”（multifaceted neuron）。這種神經(jīng)元能夠同時被多種不同序列模式激活，直接對這些混合模式進行可視化往往只能獲得難以被人理解的結(jié)果。通過深入分析，該研究發(fā)現(xiàn)CNN中的最大池化結(jié)構(gòu)是導致深層神經(jīng)元識別多種序列模式的關(guān)鍵原因。具有不同模式的序列特征在被輸入到神經(jīng)網(wǎng)絡(luò)以后，會逐層計算得到每一層網(wǎng)絡(luò)對應(yīng)的特征圖（feature map），這些特征圖在通過最大池化層后會丟失單堿基精度空間分辨率，導致輸出的特征圖變得高度相似，難以對這些混合模式進行解耦。

針對多面神經(jīng)元問題及其形成機制，研究團隊提出了Neuron Motif方法，該方法首先基于蒙特卡洛采樣和遺傳算法得到大量能充分激活神經(jīng)元的序列集合，然后計算這些序列在神經(jīng)網(wǎng)絡(luò)各層的特征圖，并通過反向逐層聚類的方式分離不同序列模式所對應(yīng)的特征圖，將具有不同模式的序列劃分到不同的子集中，最終通過對每個子集的可視化獲得易于理解的序列模式特征。在此基礎(chǔ)上，該方法構(gòu)建了基于結(jié)構(gòu)化語法樹的自動化知識提取方法，從數(shù)據(jù)中自動歸納轉(zhuǎn)錄因子結(jié)合位點序列模式、組合模式、間距、次序等調(diào)控序列語法規(guī)則。

NeuronMotif歸納提取的調(diào)控序列語法規(guī)則能夠得到文獻和多種生物組學數(shù)據(jù)的支撐和驗證。通過對人類基因組數(shù)據(jù)的學習，NeuronMotif發(fā)現(xiàn)了數(shù)百種序列模式，與JASPAR數(shù)據(jù)庫中的已知轉(zhuǎn)錄因子motif序列模式高度匹配；通過NeuronMotif獲取的深層神經(jīng)元語法規(guī)則與多種細胞/組織中的ATAC-seqfootprinting模式高度匹配，并得到了基因表達數(shù)據(jù)（RNA-seq）的支持；序列模式的組合和排布等規(guī)律在跨物種基因組序列上具有顯著的序列保守性。

綜上所述，NeuronMotif為我們提供了一種解讀深度神經(jīng)網(wǎng)絡(luò)模型中深層神經(jīng)元識別模式的新方法。此外，NeuronMotif的解釋結(jié)果還可用于人工神經(jīng)網(wǎng)絡(luò)的診斷和改進，幫助降低神經(jīng)網(wǎng)絡(luò)調(diào)參的困難。借助該方法，我們可以通過神經(jīng)網(wǎng)絡(luò)的訓練和解釋，從數(shù)據(jù)中獲取可供人類專家理解的知識，幫助我們更加深入地理解胚胎發(fā)育、疾病發(fā)生等生物過程中的基因調(diào)控規(guī)律，并為基因治療等應(yīng)用中定制化逆向構(gòu)造人工基因調(diào)控序列提供支撐。

研究成果以“NeuronMotif: 通過深度神經(jīng)網(wǎng)絡(luò)的逐層解耦破譯基因順式調(diào)控編碼”（NeuronMotif: Deciphering cis-regulatory codes by -wise demixing of deep neural networks）為題發(fā)表在《美國科學院院刊》（PNAS）上。

清華大學自動化系博士后魏征為本文的第一作者，清華大學自動化系汪小我教授和美國斯坦福大學統(tǒng)計系王永雄教授為本文的共同通訊作者。清華大學李衍達教授、張學工教授、江瑞教授、魏磊助理研究員、花奎博士，斯坦福大學博士后馬士寧也對本文作出了重要貢獻。該研究得到了國家自然科學基金、國家重點研發(fā)計劃、清華大學國強研究院、北京智源人工智能研究院等的資助。

論文鏈接（點擊文末“閱讀原文”）：

https://www.pnas.org/doi/10.1073/pnas.2216698120