方案應(yīng)用場

中科院自動化所自然語言處理研究組采集處理完成目前為止國際上規(guī)模最大、包括信息最豐富的漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集

時(shí)間：2022-10-09 17:12:16 發(fā)布：自動化網(wǎng) 來源：中科院自動化所、Nature 第一對焦：中科院自動化所

【“ZiDongHua”之自動化科技觀察：漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集】該數(shù)據(jù)集覆蓋了近萬個(gè)漢語詞匯，這不僅對于研究大腦理解漢語的認(rèn)知機(jī)理具有重要意義，而且將在探索自然語言計(jì)算模型與人腦語言處理機(jī)制之間的關(guān)系，研究如何利用神經(jīng)影像數(shù)據(jù)提升現(xiàn)有語言計(jì)算模型的性能，從而構(gòu)建新一代受腦啟發(fā)的神經(jīng)語言模型等一系列工作中發(fā)揮顯著作用。

中科院自動化所自然語言處理研究組采集處理完成

目前為止國際上規(guī)模最大、包括信息最豐富的漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集

大腦在加工語言時(shí)，需要實(shí)時(shí)調(diào)動多個(gè)腦區(qū)的神經(jīng)元進(jìn)行協(xié)同工作。構(gòu)建高時(shí)空分辨率的神經(jīng)影像數(shù)據(jù)可以幫助我們更好地了解各個(gè)腦區(qū)以及腦區(qū)之間的協(xié)同合作，對于研究大腦的語言加工機(jī)制至關(guān)重要。當(dāng)前已有的開源數(shù)據(jù)主要針對英文采集，只包括單一模態(tài)的神經(jīng)影像數(shù)據(jù)，如高空間分辨率的功能核磁共振(fMRI)或高時(shí)間分辨率的腦磁圖(MEG)，并且大多使用1小時(shí)以內(nèi)的實(shí)驗(yàn)材料，數(shù)據(jù)規(guī)模有限，無法借助數(shù)據(jù)需求量大的計(jì)算模型進(jìn)行更全面、更深入的大腦語言加工機(jī)制探索。

圖1 神經(jīng)影像實(shí)驗(yàn)數(shù)據(jù)采集流程

為突破上述問題，中國科學(xué)院自動化研究所自然語言處理研究組歷時(shí)近兩年，采集處理完成了目前為止國際上規(guī)模最大、包括信息最豐富的漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集，并于近日正式對外發(fā)布。相關(guān)論文發(fā)表于Nature子刊Scientific Data。

圖2 實(shí)驗(yàn)材料對應(yīng)的標(biāo)注信息

　　該數(shù)據(jù)集是當(dāng)前國際上最大規(guī)模的用于腦語言處理機(jī)制研究的多模態(tài)同步神經(jīng)影像數(shù)據(jù)集，針對12個(gè)被試收聽約6個(gè)小時(shí)故事時(shí)的功能核磁共振(fMRI)、腦磁圖(MEG)、每個(gè)被試的T1/T2加權(quán)結(jié)構(gòu)像、擴(kuò)散磁共振成像(diffusion MRI)和靜息態(tài)核磁共振(resting MRI)數(shù)據(jù)采集整理而成，采集流程如圖1所示。為了便于利用計(jì)算模型進(jìn)行腦語言處理機(jī)制的研究，所有故事材料都由人工標(biāo)注了句法結(jié)構(gòu)樹，計(jì)算了文本中每個(gè)詞匯對應(yīng)的音頻時(shí)間點(diǎn)、詞頻以及多種不同字和詞匯的向量，如圖2所示。所有測試指標(biāo)均超越或可比于已有的同類數(shù)據(jù)集，具有充分的質(zhì)量保證。

該數(shù)據(jù)集的公開發(fā)布可以為全方位研究大腦在真實(shí)場景下理解詞匯、短語和句子時(shí)如何調(diào)動不同腦區(qū)以及不同腦區(qū)之間如何協(xié)同工作等科學(xué)問題提供重要支撐。特別值得注意的是，該數(shù)據(jù)集覆蓋了近萬個(gè)漢語詞匯，這不僅對于研究大腦理解漢語的認(rèn)知機(jī)理具有重要意義，而且將在探索自然語言計(jì)算模型與人腦語言處理機(jī)制之間的關(guān)系，研究如何利用神經(jīng)影像數(shù)據(jù)提升現(xiàn)有語言計(jì)算模型的性能，從而構(gòu)建新一代受腦啟發(fā)的神經(jīng)語言模型等一系列工作中發(fā)揮顯著作用。