生物信息學|清華大學自動化系汪小我團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法
【ZiDongHua 之 創(chuàng)新自科文:生物信息學 清華大學 、清華大學自動化系、人工智能 、神經(jīng)網(wǎng)絡(luò)、 深度神經(jīng)網(wǎng)絡(luò)模型、 多面神經(jīng)元 】
清華大學自動化系汪小我團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法
近日,清華大學自動化系汪小我團隊與美國斯坦福大學統(tǒng)計系王永雄團隊合作提出自動歸納基因調(diào)控序列編碼模式的神經(jīng)網(wǎng)絡(luò)解釋方法。該方法針對廣泛應(yīng)用于基因調(diào)控序列研究的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,通過剖析神經(jīng)網(wǎng)絡(luò)中的多面神經(jīng)元機制(multifaceted neuron),開發(fā)了神經(jīng)網(wǎng)絡(luò)解釋算法(NeuronMotif),實現(xiàn)了從神經(jīng)元中自動歸納和提取轉(zhuǎn)錄因子結(jié)合位點等關(guān)鍵序列模式(Motif)及其組合、次序、間距等基因調(diào)控序列編碼規(guī)則。該方法能夠幫助研究者更加深入地理解基因調(diào)控編碼規(guī)律,同時為神經(jīng)網(wǎng)絡(luò)模型的解釋提供了新手段。
該研究發(fā)現(xiàn),CNN解釋困難的一個主要原因在于深層神經(jīng)元大多都是“多面神經(jīng)元”(multifaceted neuron)。這種神經(jīng)元能夠同時被多種不同序列模式激活,直接對這些混合模式進行可視化往往只能獲得難以被人理解的結(jié)果。通過深入分析,該研究發(fā)現(xiàn)CNN中的最大池化結(jié)構(gòu)是導致深層神經(jīng)元識別多種序列模式的關(guān)鍵原因。具有不同模式的序列特征在被輸入到神經(jīng)網(wǎng)絡(luò)以后,會逐層計算得到每一層網(wǎng)絡(luò)對應(yīng)的特征圖(feature map),這些特征圖在通過最大池化層后會丟失單堿基精度空間分辨率,導致輸出的特征圖變得高度相似,難以對這些混合模式進行解耦。
針對多面神經(jīng)元問題及其形成機制,研究團隊提出了Neuron Motif方法,該方法首先基于蒙特卡洛采樣和遺傳算法得到大量能充分激活神經(jīng)元的序列集合,然后計算這些序列在神經(jīng)網(wǎng)絡(luò)各層的特征圖,并通過反向逐層聚類的方式分離不同序列模式所對應(yīng)的特征圖,將具有不同模式的序列劃分到不同的子集中,最終通過對每個子集的可視化獲得易于理解的序列模式特征。在此基礎(chǔ)上,該方法構(gòu)建了基于結(jié)構(gòu)化語法樹的自動化知識提取方法,從數(shù)據(jù)中自動歸納轉(zhuǎn)錄因子結(jié)合位點序列模式、組合模式、間距、次序等調(diào)控序列語法規(guī)則。
NeuronMotif歸納提取的調(diào)控序列語法規(guī)則能夠得到文獻和多種生物組學數(shù)據(jù)的支撐和驗證。通過對人類基因組數(shù)據(jù)的學習,NeuronMotif發(fā)現(xiàn)了數(shù)百種序列模式,與JASPAR數(shù)據(jù)庫中的已知轉(zhuǎn)錄因子motif序列模式高度匹配;通過NeuronMotif獲取的深層神經(jīng)元語法規(guī)則與多種細胞/組織中的ATAC-seqfootprinting模式高度匹配,并得到了基因表達數(shù)據(jù)(RNA-seq)的支持;序列模式的組合和排布等規(guī)律在跨物種基因組序列上具有顯著的序列保守性。
綜上所述,NeuronMotif為我們提供了一種解讀深度神經(jīng)網(wǎng)絡(luò)模型中深層神經(jīng)元識別模式的新方法。此外,NeuronMotif的解釋結(jié)果還可用于人工神經(jīng)網(wǎng)絡(luò)的診斷和改進,幫助降低神經(jīng)網(wǎng)絡(luò)調(diào)參的困難。借助該方法,我們可以通過神經(jīng)網(wǎng)絡(luò)的訓練和解釋,從數(shù)據(jù)中獲取可供人類專家理解的知識,幫助我們更加深入地理解胚胎發(fā)育、疾病發(fā)生等生物過程中的基因調(diào)控規(guī)律,并為基因治療等應(yīng)用中定制化逆向構(gòu)造人工基因調(diào)控序列提供支撐。
研究成果以“NeuronMotif: 通過深度神經(jīng)網(wǎng)絡(luò)的逐層解耦破譯基因順式調(diào)控編碼”(NeuronMotif: Deciphering cis-regulatory codes by -wise demixing of deep neural networks)為題發(fā)表在《美國科學院院刊》(PNAS)上。
清華大學自動化系博士后魏征為本文的第一作者,清華大學自動化系汪小我教授和美國斯坦福大學統(tǒng)計系王永雄教授為本文的共同通訊作者。清華大學李衍達教授、張學工教授、江瑞教授、魏磊助理研究員、花奎博士,斯坦福大學博士后馬士寧也對本文作出了重要貢獻。該研究得到了國家自然科學基金、國家重點研發(fā)計劃、清華大學國強研究院、北京智源人工智能研究院等的資助。
論文鏈接(點擊文末“閱讀原文”):
https://www.pnas.org/doi/10.1073/pnas.2216698120
微信聯(lián)盟:清華大學微信群、人工智能微信群、神經(jīng)網(wǎng)絡(luò)微信群、深度神經(jīng)網(wǎng)絡(luò)模型微信群、多面神經(jīng)元微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯服務(wù)器、邊緣計算解決方案
評論排行