紫冬學(xué)術(shù)丨清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)提出知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的合成啟動(dòng)子AI設(shè)計(jì)方法
【ZiDongHua 之方案應(yīng)用場(chǎng)收錄關(guān)鍵詞: 清華大學(xué)自動(dòng)化系 合成生物學(xué) 人工生物 人工智能 】
紫冬學(xué)術(shù)丨自動(dòng)化系汪小我團(tuán)隊(duì)提出知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的合成啟動(dòng)子AI設(shè)計(jì)方法
近年來(lái),合成生物學(xué)作為一門(mén)新興交叉學(xué)科獲得了蓬勃發(fā)展,為破解人類(lèi)面臨的資源、健康、環(huán)境等重大挑戰(zhàn)提供全新解決途徑。合成生物學(xué)的核心理念是通過(guò)對(duì)DNA等生物大分子的逆向設(shè)計(jì)重構(gòu)獲得具有特定功能的人工生物系統(tǒng)。然而,這些生物分子編碼的組合排列空間十分龐大,序列與功能的映射關(guān)系復(fù)雜,對(duì)生物大分子序列進(jìn)行精準(zhǔn)設(shè)計(jì)極具挑戰(zhàn)。近期人工智能技術(shù)的突破引發(fā)了自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的革命性進(jìn)步,尤其是以ChatGPT等為代表的生成式智能模型的突破,彰顯出AI在提取復(fù)雜模式、生成復(fù)雜對(duì)象上的強(qiáng)大潛力?;谌斯ぶ悄芗夹g(shù)逆向設(shè)計(jì)啟動(dòng)子等具有特定功能的生物大分子序列,將為合成生物學(xué)的發(fā)展提供強(qiáng)大的設(shè)計(jì)工具和豐富的基礎(chǔ)元件。
近日,清華大學(xué)自動(dòng)化系汪小我團(tuán)隊(duì)提出了一種將專(zhuān)家知識(shí)與大數(shù)據(jù)學(xué)習(xí)相融合的合成啟動(dòng)子人工智能輔助設(shè)計(jì)方法,發(fā)現(xiàn)了轉(zhuǎn)錄因子結(jié)合位點(diǎn)旁側(cè)序列在啟動(dòng)子優(yōu)化設(shè)計(jì)中的重要作用,為突破基因調(diào)控元件設(shè)計(jì)中面臨的高維度、小樣本的核心難題提供了新的思路。研究成果以“Deep flanking sequence engineering for efficient promoter design using DeepSEED”為題,于2023年10月9日發(fā)表于《自然-通訊》(Nature Communications)期刊上。
該研究圍繞著啟動(dòng)子(Promoter)這一負(fù)責(zé)決定基因在何時(shí)、何地以何種程度進(jìn)行轉(zhuǎn)錄表達(dá)的合成生生物學(xué)基礎(chǔ)元件展開(kāi)研究。DNA序列設(shè)計(jì)的空間巨大,1000bp長(zhǎng)度的序列理論上有10^600種可能的排列組合方式。傳統(tǒng)的啟動(dòng)子解析與設(shè)計(jì)研究主要側(cè)重于對(duì)功能已知的轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Transcription Factor Binding Sites, TFBS)進(jìn)行分析,并通過(guò)位置權(quán)重矩陣(PWM)等模型對(duì)序列motif進(jìn)行描述和建模。然而對(duì)在啟動(dòng)子序列中占據(jù)很大比例的位于不同TFBS之間的旁側(cè)序列(Flanking sequence)卻缺少研究。雖然有實(shí)驗(yàn)表明旁側(cè)序列的改變也會(huì)對(duì)啟動(dòng)子活性產(chǎn)生影響,然而由于旁側(cè)序列中的特征信號(hào)弱,難以被人為歸納總結(jié)為明確的知識(shí)和設(shè)計(jì)準(zhǔn)則,導(dǎo)致旁側(cè)序列在啟動(dòng)子功能研究中被長(zhǎng)期忽視。此外,由于天然基因組具有特殊功能的啟動(dòng)子往往樣本數(shù)量很少,導(dǎo)致對(duì)響應(yīng)特定生物信號(hào)的誘導(dǎo)型與細(xì)胞特異型等更具實(shí)際應(yīng)用價(jià)值的啟動(dòng)子難以直接建立深度學(xué)習(xí)模型和對(duì)整體模式進(jìn)行提取。
針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)創(chuàng)新提出了一種知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的智能設(shè)計(jì)策略DeepSEED(圖1):首先基于人類(lèi)專(zhuān)家擅長(zhǎng)在小樣本中識(shí)別明確強(qiáng)特征模式的特點(diǎn),利用專(zhuān)家知識(shí)定義與啟動(dòng)子功能相關(guān)的重要顯式模式例如TFBS或?qū)<胰我庠O(shè)定的序列片段作為“種子”;在此基礎(chǔ)上,借助深度學(xué)習(xí)模型在大型數(shù)據(jù)集中提取隱含弱模式的強(qiáng)大能力,在海量數(shù)據(jù)中學(xué)習(xí)旁側(cè)序列與種子序列間隱式匹配關(guān)系,進(jìn)而基于條件生成式模型產(chǎn)生與“種子”相匹配的完整啟動(dòng)序列,并對(duì)序列整體進(jìn)行全局優(yōu)化。DeepSEED方法由兩個(gè)深度學(xué)習(xí)模塊組成,一個(gè)條件式生成對(duì)抗網(wǎng)絡(luò)(cGAN)用于捕獲顯式和隱式模式之間的依賴(lài)關(guān)系,一個(gè)基于DenseNet-LSTM的預(yù)測(cè)模型來(lái)評(píng)估啟動(dòng)子性能,并利用遺傳算法對(duì)這兩個(gè)模型進(jìn)行偶聯(lián),通過(guò)模型迭代實(shí)現(xiàn)功能啟動(dòng)子的優(yōu)化設(shè)計(jì)。在實(shí)際應(yīng)用過(guò)程中,研究者可以任意指定已知生物調(diào)控序列作為“種子”,模型通過(guò)學(xué)習(xí)大數(shù)據(jù)中旁側(cè)序列的調(diào)控規(guī)律對(duì)“種子”的旁側(cè)序列進(jìn)行補(bǔ)全,提升啟動(dòng)子的整體轉(zhuǎn)錄活性,從而實(shí)現(xiàn)啟動(dòng)子的按需優(yōu)化設(shè)計(jì)。
研究團(tuán)隊(duì)成功將該方法成功應(yīng)用于大腸桿菌內(nèi)組成型啟動(dòng)子、IPTG誘導(dǎo)型啟動(dòng)子,和哺乳動(dòng)物細(xì)胞內(nèi)Dox誘導(dǎo)型啟動(dòng)子的優(yōu)化設(shè)計(jì)(圖2)。尤為值得一提的是,研究團(tuán)隊(duì)選擇在生命科學(xué)研究中廣泛使用的、近三十年來(lái)未能被進(jìn)一步優(yōu)化的哺乳動(dòng)物細(xì)胞Dox誘導(dǎo)型Tet-On調(diào)控系統(tǒng)作為研究對(duì)象,實(shí)驗(yàn)表明77.8%的人工啟動(dòng)子表現(xiàn)出誘導(dǎo)活性提高,83.3%的人工啟動(dòng)子表現(xiàn)出更高的誘導(dǎo)倍數(shù)(圖3)。生成的合成啟動(dòng)子表現(xiàn)出了高度的序列多樣性、與天然基因組序列的低相似性,同時(shí)保留了天然序列中k-mer頻率等特征,并優(yōu)化了DNA大溝、小溝偏好、偏轉(zhuǎn)角等整體形狀屬性,大幅提升了合成啟動(dòng)子的轉(zhuǎn)錄活性和誘導(dǎo)率等關(guān)鍵性能,并在多種不同培養(yǎng)條件和細(xì)胞類(lèi)型中表現(xiàn)魯棒。
綜上所述,該研究基于知識(shí)引導(dǎo)與數(shù)據(jù)驅(qū)動(dòng)相融合的創(chuàng)新策略,建立了人工智能輔助的啟動(dòng)子序列優(yōu)化方法DeepSEED,能夠有效突破功能啟動(dòng)子設(shè)計(jì)中維度高、樣本小的核心難題,為研究者提供了可用于旁側(cè)序列優(yōu)化和多類(lèi)型啟動(dòng)子設(shè)計(jì)的人工智能輔助工具,有望為合成生物學(xué)研究提供基礎(chǔ)性的設(shè)計(jì)工具和多樣化的調(diào)控元件。
清華大學(xué)自動(dòng)化系博士研究生張鵬程、博士研究生王昊晨與碩士研究生許涵文為該論文的共同第一作者,清華大學(xué)汪小我教授為通訊作者。清華大學(xué)的魏磊、劉莉揚(yáng)、胡志睿等也對(duì)本文做出了重要貢獻(xiàn)。該研究得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、清華大學(xué)國(guó)強(qiáng)研究院項(xiàng)目的資助。
文字:汪小我團(tuán)隊(duì)
編輯:沈碧瑩
審核:周亞
終審:石宗英
微信聯(lián)盟:合成生物學(xué)微信群、人工生物微信群、人工智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線(xiàn)監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線(xiàn)監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線(xiàn)監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
評(píng)論排行