我們思考人類的一個(gè)終極問題:我們?nèi)祟愂钦l(shuí)?我們從哪兒來?我們到哪兒去?這一問題的前兩部分更加根本,一個(gè)有客觀數(shù)據(jù)支持的、理性的答案會(huì)深刻地影響到人類對(duì)自身的認(rèn)識(shí),并進(jìn)而影響到人類的社會(huì)、教育、和發(fā)展。

  客觀回答上述終極問題的一個(gè)視角是比較物種的基因組?;贒NA序列的系統(tǒng)發(fā)生學(xué)研究表明,在地球上現(xiàn)有生物中,黑猩猩是我們最近的親屬。比較人類基因組和黑猩猩基因組(2005年版本),在全部可比對(duì)的DNA序列中,差異只有1.23%。King and Wilson博士認(rèn)為巨大性狀差異的解釋因子應(yīng)該位于占人類基因組98.5%的非編碼序列中,進(jìn)化和適應(yīng)是在調(diào)控層面上實(shí)現(xiàn)的。這個(gè)假設(shè)最早是做為第一性原則提出的。幾十年以來,它得到了大量的但卻是孤立的例子支持。目前,還缺乏簡(jiǎn)明的量化數(shù)學(xué)模型和工具來系統(tǒng)地刻畫這個(gè)結(jié)論。

  我們從基因近端調(diào)控序列順式元件頻數(shù)(Cis-regulatory element frequencies)的矩陣出發(fā),提出了CREF雙重特征模塊和極化特征向量的概念,并比較了人、黑猩猩、紅猩猩的CREF雙重特征模塊。

  研究發(fā)現(xiàn),在第1,2,3,6容級(jí),調(diào)控模塊都是保守的。如圖1(A)所示,比較人類與黑猩猩前6對(duì)調(diào)控元件特征向量的散點(diǎn)圖,前3對(duì)和第6對(duì)高度相關(guān)(Pearson相關(guān)系數(shù)> 0.99),表明這四個(gè)模塊是保守的。相反,第4對(duì)和第5對(duì)之間的相關(guān)性較低,表明在這兩個(gè)模塊中發(fā)生了分化。如圖1(B)所示,從猿到人,在第4和第5元件特征向量之間發(fā)生旋轉(zhuǎn)。也就是說,在第4和第5個(gè)元件特征向量張成的二維特征子空間中,人類的兩個(gè)特征方向相對(duì)于黑猩猩的特征方向旋轉(zhuǎn)了大約28°。圖1(C)展示了人類的前6個(gè)奇異值的樣本分布(從右到左,由密度函數(shù)表示),樣本分布是從包含80%的順式元件的100個(gè)隨機(jī)子矩陣中獲得的。前3個(gè)奇異值的樣本分布與相鄰奇異值的樣本分布是完全分開的,而第4個(gè)和第5個(gè)奇異值的樣本分布有很大一部分重疊,這表明歷史上可能存在融合事件,即出現(xiàn)了二維退化特征空間。

 

  圖2.(A)在人類和黑猩猩的前6個(gè)極化基因特征向量的兩極,基因富集的生物過程。

  用不同顏色標(biāo)記的每個(gè)框的兩端,對(duì)應(yīng)一個(gè)極化基因特征向量的兩極。從上到下,6個(gè)極化基因特征向量按照奇異值的降序排列。前3個(gè)和第6個(gè)基因特征向量的富集結(jié)果保守,因此僅顯示了人類的結(jié)果。人類和黑猩猩在第4和第5特征向量之間出現(xiàn)顯著差異。突觸可塑性的調(diào)控、社交行為、耳蝸發(fā)育、視覺學(xué)習(xí)和長(zhǎng)期記憶的GO類別在人的第4個(gè)基因特征向量的兩極得到了顯著富集,而一個(gè)重要發(fā)現(xiàn)是在第4、5容級(jí)之間,調(diào)控模塊發(fā)生了相變。這在數(shù)學(xué)上對(duì)應(yīng)著相等特征值帶來的特征空間退化現(xiàn)象。這一相變產(chǎn)生了人類特有的第4容級(jí)模塊,如圖2所示,它調(diào)控長(zhǎng)期記憶、以耳蝸發(fā)育為核心的語(yǔ)言功能,以視覺為基礎(chǔ)的認(rèn)知學(xué)習(xí)功能、社交行為、以及副交感神經(jīng)系統(tǒng)。

 

  圖3. 上圖:比較黑猩猩和人,在每個(gè)極化元件特征向量?jī)蓸O的MPA(ALU攜帶的順式調(diào)控元件)個(gè)數(shù)的相對(duì)百分比變化。下圖: 在人類第4容級(jí)的順式調(diào)控模塊中,SP1是一個(gè)新增的MPA,它與若干重要的調(diào)控認(rèn)知的因子有交互作用。

  通過本課題組原創(chuàng)的雙重特征分析方法,我們發(fā)現(xiàn)推動(dòng)這一基因組相變的重要驅(qū)動(dòng)力之一是與ALU轉(zhuǎn)座子相關(guān)的變異。ALU攜帶的順式調(diào)控元件(MPA)是認(rèn)識(shí)這個(gè)現(xiàn)象的重要線索。在圖3中,我們比較黑猩猩和人在每個(gè)極化元件特征向量?jī)蓸O的MPA個(gè)數(shù)的相對(duì)百分比變化。MPA數(shù)量在人類的第4級(jí)增加最為明顯,增加了27.9%。 

  人類特有的轉(zhuǎn)座子插入約占基因組的4.7%。我們報(bào)道了47個(gè)人類特有的插入在近端調(diào)控區(qū)域的Alu轉(zhuǎn)座子。這些調(diào)控區(qū)域?qū)?yīng)的基因大都與長(zhǎng)期記憶、認(rèn)知、語(yǔ)言、學(xué)習(xí)、外觀形態(tài)有關(guān)。 

  我們認(rèn)為,上述發(fā)現(xiàn)給出了終極問題的部分答案。這個(gè)工作發(fā)表在Molecular Biology and Evolution,2020 Jun 1;37(6):1679-1693. doi:10.1093/molbev/msaa036。研究獲得了以下基金資助:中國(guó)科學(xué)院國(guó)家數(shù)學(xué)與交叉科學(xué)中心基金;中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)基金(B類(XDB13040600);中國(guó)科學(xué)院系統(tǒng)控制重點(diǎn)實(shí)驗(yàn)室基金;國(guó)家自然科學(xué)基金(11871462,91530105)。