孫茂松教授:數(shù)字人文代表了未來的方向,語言文學方面的數(shù)字人文研究尤其需要注重機器與數(shù)字的結合|聲律·網(wǎng)絡·未來:第三屆清華大學數(shù)字人文國際論壇
【“ZiDongHua”之人文化天下:數(shù)字人文】孫茂松:數(shù)字人文代表了未來的方向,語言文學方面的數(shù)字人文研究尤其需要注重機器與數(shù)字的結合,是一個需要團隊的通力合作的工程,如此方能回應一些人文社科中的重大問題,借以提升中國在國際學界的影響力。
白鈺卓:《“九歌”自動作詩系統(tǒng)的開發(fā)與建設》一文報告了清華大學自然語言處理與社會人文計算實驗室(THUNLP)“九歌”作詩系統(tǒng)的研發(fā)情況,包括自動作詩、集句、對聯(lián)等功能與相關的算法與原理,對人工智能進行詩歌創(chuàng)作與研究提供了可能的方案。
數(shù)字使人文更新 ——“聲律·網(wǎng)絡·未來:第三屆清華大學數(shù)字人文國際論壇”紀要
2022年11月12日至13日,由清華大學人文學院、《數(shù)字人文》編輯部主辦,巴克內(nèi)爾大學中國研究所協(xié)辦的“聲律·網(wǎng)絡·未來——第三屆清華數(shù)字人文國際論壇”,在清華大學以線上線下的形式成功舉辦。來自多個國家/地區(qū)的包括20所境外高校在內(nèi)的40多家高校及科研機構的六十多位學者發(fā)表了他們的最新研究成果。近年來,數(shù)字人文在中文學界蓬勃發(fā)展,此次論壇正值清華大學與中華書局共同創(chuàng)辦的《數(shù)字人文》學術輯刊創(chuàng)刊三周年之際,也是三年來編輯部第二次召集數(shù)字人文專業(yè)會議。大會秉承前兩屆論壇的精神,力圖做到翔實、生動、專業(yè)、前瞻,以實事求是的態(tài)度,避免數(shù)字人文的泡沫化,讓數(shù)字人文的教學科研范式沉落到傳統(tǒng)人文學科內(nèi)部,使之真正生根發(fā)芽,開花結果。為此,論壇精心籌備了三個專題——“聲律與古典詩歌專場”“網(wǎng)絡分析專題暨??l(fā)布會”“未來學者專場”,均是水到渠成,瓜熟蒂落的一次集中的成果展示。此次論壇作為清華大學人文學院成立十周年系列學術活動之一,獲得了清華大學文科處“雙高”計劃和國際合作與交流處“國際化能力提升行動計劃”的支持。作為清華大學第26次教育工作討論會人文學院新文科人才培養(yǎng)研討會的一部分,與會專家還就數(shù)字人文教育與交叉學科人才培養(yǎng)作了研討。
Opening Ceremony
開幕式
在2022年11月12日的開幕式上,清華大學人文學院院長劉石、清華大學人工智能研究院常務副院長孫茂松、北京大學中文系主任杜曉勤三位教授分別致辭。劉石教授首先介紹了以清華為核心的數(shù)字人文跨學科團隊,該團隊在學校的大力支持下于四、五年前成立,以人文學院、計算機科學與技術系和統(tǒng)計學中心的師生為主,也得到了來自社科院、澳門理工大學和浙江大學等高校學者的支持。受國家社科基金重大項目資助,幾年來創(chuàng)建了數(shù)字人文刊物、門戶網(wǎng)站和“璇琮數(shù)字人文智慧平臺”,還開設了面向日新書院本科生的試驗性課程。他還強調,數(shù)字人文與傳統(tǒng)學術并不脫節(jié),在現(xiàn)在和未來都是一種趨勢。孫茂松教授代表計算機學界對論壇順利召開表示熱烈祝賀,他贊許三個議題具有新意,充分反映了數(shù)字人文的特點,帶有濃厚的人文色彩。數(shù)字人文代表了未來的方向,語言文學方面的數(shù)字人文研究尤其需要注重機器與數(shù)字的結合,是一個需要團隊的通力合作的工程,如此方能回應一些人文社科中的重大問題,借以提升中國在國際學界的影響力。杜曉勤教授指出,數(shù)字人文有三個歷時性含義,一是上世紀用數(shù)字手段輔助人文研究;二是二十年前開始結合網(wǎng)絡技術、大數(shù)據(jù)技術從事學術研究;三是現(xiàn)在將數(shù)字人文視為與理工科交叉的學科,有了自己獨特的研究對象。清華大學人文學院已形成自己的學科特色,在數(shù)字人文研究中占有重要的一席。本次會議與前兩次相比,呈現(xiàn)出焦點更集中、問題更具體、選題更前沿的傾向。既有個案,又有理論。既有傳統(tǒng)特色,又展望未來,對當下數(shù)字人文研究有積極的推進意義。
01
清華大學人文學院院長劉石教授致辭
02
清華大學人工智能研究院常務副院長孫茂松教授致辭
03
北京大學中文系主任杜曉勤教授致辭
Classical Poetry and Prosody
古典詩歌與聲律專場
“古典詩歌與聲律專場”下設“大數(shù)據(jù)與聲律研究”“語言與韻律”“基礎設施與詩歌研究”“詩學研究的數(shù)字人文應用”四個研討專題。
“大數(shù)據(jù)與聲律研究”專題中,報告人主要圍繞近體詩格律與詞調研究兩方面展開討論。來自清華大學人文學院的韓婭非、陸泉宇和曲一迪的三篇文章著眼于《全唐詩》、《全宋詩》等大規(guī)模聲律樣本數(shù)據(jù)對傳統(tǒng)命題與關鍵材料的接駁與闡釋。韓婭非《<全唐詩>七言四句詩的聲律驗證與發(fā)現(xiàn)》一文對唐代七言絕句的聲律情況作了定量考察和驗證;同時,結合音樂文學史的相關命題,討論了中唐聲詩的格律化,以及背律七絕的創(chuàng)作與音樂性的關系等命題,對“樂”與“律”二者的互動關系進行了詳細的闡釋。陸泉宇《永明體到近體中句內(nèi)聲調規(guī)則對立嬗變的考察:以“蜂腰”與“二四異聲”為例》一文對“蜂腰”和“二四異聲”兩個重要概念進行統(tǒng)計分析,在改進統(tǒng)計學方法的的基礎上,對不同版本的“蜂腰”與“二四異聲”觀念作了辨析,對“初腰”等詩律學命題作了解釋,并描繪了兩個規(guī)則在六朝到唐代的嬗變圖景。曲一迪、韓玉鳳《紹興新制與宋詩聲律》一文從南宋時在《禮部韻略》基礎上修訂的《附釋文互注禮部韻略》中一項聲律條目入手,探究了紹興時期科舉詩里“平平仄平仄”與“仄仄平仄仄”等句式的使用情況與原因,及其對唐代試律法式的繼承與拓展并進一步討論了這與“拗救”等觀念的關聯(lián),認為“大拗必救”說是后人對二四同仄句式的誤解。文章同樣指出宋代民間與官方的聲律分層,基于不同制度背景,詩律規(guī)則會呈現(xiàn)出不同面貌。
伍三土(溫州大學)、曾智聰(香港都會大學)、王琳夫(華東師范大學)三位的報告集中圍繞詞律標準的確定與數(shù)字化構建方法展開。與詩律研究相比,詞律面臨倚聲填詞與依詞、依譜填詞間的爭議以及一調多體的問題,因而更不容易直接進入大數(shù)據(jù)統(tǒng)計分析的方法之中。伍三土《宋詞行腔理論與樂譜實證分析》一文嘗試充分運用音樂與文辭雙方的本體史料,從節(jié)奏、聲字、韻字三個層面細化討論宋詞聲辭關系,與字聲結合提出一套系統(tǒng)的宋詞行腔法則,并對其適用范圍加以限定,認為這套行腔法則的詞作及同時代其他歌譜。文章以姜夔詞為樣本,借助數(shù)字人文方法繪制了聲辭關系對照曲線并進行旋律與字聲數(shù)據(jù)比對,量化驗證了文中提出的行腔理論。曾智聰《柳永慢詞聲律與抒情量化研究芻議》一文就柳永慢詞聲律的量化進行了綱領性的分析,將平仄句式、韻腳韻部、韻位疏密等聲律要素與文本細讀結合,深入分析詞中聲律與抒情的關系。具體實現(xiàn)方式為,將柳永約110首慢詞連同詮釋資料(metadata)制作為數(shù)字文本并進行標記(tagging),建立“柳永慢詞聲律資料庫”,讓純文字文本變成有意義的資訊,即所謂“數(shù)位文本加值”。王琳夫《詞譜研究的數(shù)字化實踐》一文指出,目前大數(shù)據(jù)方法應用于詞律仍較為謹慎,由于在聲辭配合形式、填詞方法等基本問題上目前仍乏共識。詞譜編撰的三種傳統(tǒng)方法中,相較于詩律法與例詞四聲譜,應用最為廣泛的“互校法”本質上就是程序化、規(guī)?;⒕毣淖致暯y(tǒng)計,其思想內(nèi)核與今日的大數(shù)據(jù)理論相合。自動箋注字聲、多音字辨析、聲律比較統(tǒng)計等方法的應用也能夠極大地減少文獻比對中的機械勞動。
在評議與討論環(huán)節(jié),劉洋(中國政法大學)與諸雨辰(北京師范大學)兩位學者指出,在用大數(shù)據(jù)方法進行聲律研究的過程中,對于數(shù)據(jù)處理手段以及規(guī)則的解釋十分必要,這體現(xiàn)了科學研究中的可還原復現(xiàn)原則。另外,以數(shù)據(jù)對接某些傳統(tǒng)規(guī)則與概念時,有必要首先廓清基本定義,尤其對于粘對、拗救等具有一定爭議的概念范疇。詩與詞的所謂格律化一定程度是建立在文體案頭化基礎上的命題,然而在聲律研究中,音樂作為一項重要影響因素所產(chǎn)生的作用是不可忽略的,這關涉到聲詩體裁確認、詩題變遷,以及聲辭對照中的古音還原等一系列問題。
“語言與韻律”專題由謝思煒(清華大學)、馮勝利(北京語言大學)、劉麗媛(萊頓大學)、邱冰(清華大學)、張培陽(南陽師范學院)、郝若辰(清華大學)等學者參與發(fā)表與討論,這一專題主要關注于詩歌中的韻律句法及其與聲律的互動機制,以及對漢語史上某些問題的具體探討。
謝思煒《白居易七言詩特殊句式探考》一文討論了白居易詩中的“節(jié)點變化”問題以及格律詩對偶句中的“失對“現(xiàn)象,基于廣泛全面的梳理,對前人的既有相關命題進行了反思與再考察,并對古代詩歌的詞性、句法等重要問題加以翔實細致的考論。馮勝利《論中國韻律文學史上節(jié)律理論的發(fā)明》一文由劉麗媛代為宣讀,文章對韻律文學史下的理論進行了詳細梳理,對屈原、沈約、劉勰等人的韻律理論分別進行分析,突出強調了“節(jié)律”這一因素對文學創(chuàng)作的影響,并以探討詩律與文律誕生的的機制屬性。邱冰《中古漢譯佛經(jīng)語體色彩的數(shù)字化呈現(xiàn)》一文以人稱代詞、時間副詞、范圍副詞三類詞為代表,通過不同作品中不同詞類的文言詞/口語詞使用情況的比較,對中古佛經(jīng)的漢譯語體與風格作了量化分析與可視化展示。張培陽《言數(shù):傳統(tǒng)七古體制及其演變研究之一》一文從“言數(shù)”這一角度出發(fā),將分為純七古、近七古、雜言七古和騷體七古四大類,通過對先唐及唐代七古的分體裁、分作者考察,對“七古”這一體式的演變情況及其內(nèi)在作用機制進行了分析。郝若辰《節(jié)奏、聲律與句法:生成詩律學視閾下古典漢詩與英詩格律比較》一文,由《魯拜集》與傳統(tǒng)七絕的形式對譯切入,繼而從音步、句長與用韻三個方面將英詩與古典漢詩進行比對,聚焦于生成詩律學的“tension”理論與傳統(tǒng)拗救說發(fā)生機制上的共性,嘗試提出以節(jié)奏作為句法與聲律間橋梁的古典漢詩生成韻律理論。
評議與討論環(huán)節(jié)中,謝思煒與張培陽先后指出,首先,對于詩歌形式要素的研究應避免求之太甚與過度闡釋,詩作的經(jīng)典性未必等同于某些形式標準或規(guī)則的普適性。其次,節(jié)奏是關涉多個方面的重要概念,因而確定音步劃分原則應慎之又慎,在前人提出的不同觀點中仔細甄別,選取能同時與句法理論及詩歌誦讀節(jié)律銜接者。第三,關于詩句言數(shù)、押韻方式的討論應具備歷史性思維,從詩體生成演進等角度切入。
在12日的第三場討論中,陳逸云(微軟亞洲工程院)、李梅霞(中國人民大學)、白鈺卓(清華大學)、丁唯(美因茨大學)、潘長在(清華大學)等基于數(shù)字人文基礎設施建設與詩歌研究的相關問題進行了報告,由陳逸云、胡韌奮(北京師范大學)兩位學者主持評議。陳逸云《以搜韻網(wǎng)為例談聲律智能化在辨音、校讎和輔助創(chuàng)作上的應用》一文對其建設的“搜韻網(wǎng)”詩歌平臺的功能與應用進行了詳盡的介紹,通過展示其對于詩律分析、對語統(tǒng)計、版本勘定、詩歌創(chuàng)作等方面的應用,展現(xiàn)了智能化詩歌平臺對傳統(tǒng)詩歌研究的獨特價值。李梅霞《易數(shù)、樂律與古典詩律融通后的數(shù)據(jù)庫建設研究—以Unicode 13.0為中心》一文將樂律、詩律與易數(shù)相結合,分析了“數(shù)”在此三者中的共通作用。文章還討論了三者融通后、以Unicode13.0為中心的數(shù)據(jù)庫建設具體方案。白鈺卓《“九歌”自動作詩系統(tǒng)的開發(fā)與建設》一文報告了清華大學自然語言處理與社會人文計算實驗室(THUNLP)“九歌”作詩系統(tǒng)的研發(fā)情況,包括自動作詩、集句、對聯(lián)等功能與相關的算法與原理,對人工智能進行詩歌創(chuàng)作與研究提供了可能的方案。丁唯《PoemMetaVis:古典詩歌元數(shù)據(jù)動態(tài)交互式可視化探索》一文,以東坡詞為例,進行了對詩歌主題、動態(tài)詞頻、詩歌時間線、情感傾向、物象語詞等方面的可視化展示。這有助于基于大數(shù)據(jù)對東坡詞、以及其他古典詩歌進行多方面、多視角的研究與理解。潘長在《TopWORDS-Seg分詞方法及其在詩歌上的應用 》一文,介紹了基于古典文獻、醫(yī)療、法律文獻等專業(yè)領域開發(fā)的中文分詞工具TopWORDS-Seg。TopWORDS-Seg通過利用貝葉斯框架將無監(jiān)督和有監(jiān)督的機器學習方法相結合,攻破了專業(yè)詞匯占比大且標注成本高的語料的分詞難題。中文語料的分詞是文本挖掘的基礎步驟,分詞精度和新詞發(fā)現(xiàn)的表現(xiàn)極大程度地影響到后續(xù)任務的實現(xiàn),例如主題模型、關系提取等,目前TopWORDS-Seg在用于維基百科與《深度學習》測試中均有突出表現(xiàn)。將其用于古典詩歌分詞,準確度比原始TopWORDS算法有10%的提升,并且初步回應了五言詩中212和221兩種基本節(jié)奏的大致比例。
“詩學研究的數(shù)字人文應用”討論組于11月13日上午分為兩場開展,第一場由李斌(南京師范大學)與陳婧(香港理工大學)負責主持及評議。Jack W Chen(陳威,弗吉尼亞大學)《文學史、主題模型、散度度量:以閱讀全唐詩為例》(Reading the Quan Tang shi: Literary History, Topic Modeling, Divergence Measures)一文講述了如何通過主題模型和趨異測度兩種遠讀的方法來探究《全唐詩》及相關文學史問題。Jack W Chen教授指出,傳統(tǒng)文學史的書寫傾向于反復書寫或關注一小部分經(jīng)典作品和讀者,而大數(shù)據(jù)提供了全面探究文本的可能性。Jack W Chen對《全唐詩》的內(nèi)容構成進行了分析,并介紹了LDA主題模型在《全唐詩》研究方面的有為之處,認為只有將數(shù)字人文方法和人類視角交織結合,才能對文學史有更為深入的理解。劉昭麟(臺灣政治大學)《唐宋格律詩分詞標記的探索》一文圍繞唐宋格律詩的分詞工作展開討論,認為詩歌的創(chuàng)作以美學抒情為要,基于個人賞析與詩人創(chuàng)作原意,詩歌不見得有如計算機領域所想象的唯一分詞。但在這一基本常識之外,希望能夠通過構建格律詩數(shù)據(jù)庫以完成適用于大批量詩歌的分詞。許建業(yè)(香港樹仁大學)《數(shù)位人文與明代唐詩選本研究》集中展現(xiàn)了對建設唐詩選本數(shù)據(jù)庫的思考。發(fā)言首先簡述了目前已有的唐詩選本數(shù)據(jù)庫平臺的優(yōu)缺點,指出當前的常用平臺存在缺乏歸類、作者時代錯置、OCR校對、及版本混雜等問題,指出理想資料庫應具備全文檢索、排列版本、統(tǒng)計方法、保留副文本等系統(tǒng)功能,并與智慧古籍平臺進行合作,以便更好助力唐詩選本研究。王麗麗(哈爾濱工程大學)與郭思文(北京航空航天大學)《音以韻美:“音美”視域下<詩經(jīng)>英譯的美學觀照——以<關雎>的三個英譯本比較為例》一文基于許淵沖“三美”論中的“音美”原則,從比較視角考察《關雎》三個英譯本(許淵沖、Legge、Pound)中音韻美學的異語建構情況。借助Praat 6.0語音軟件比較了譯本與原文的節(jié)奏、聲音和韻律,結果顯示三個譯本的節(jié)奏較忠實原文,元、輔音比例以及超音段特征(音高、音強和音長)與原文擬合度較高。此外,三個譯本均通過大量的頭韻、諧元音和諧輔音還原原詩的疊詞和雙聲。這一通過譯本的比較分析探究中國詩歌英譯過程中“音美”構建,同樣可以為中國詩歌在英語世界傳播提供可借鑒的范式。評議環(huán)節(jié),學者們對相關問題進行了熱烈交流。本組集中討論了數(shù)字人文研究中字詞、詩集、韻律處理的三個主題,認為當下分詞、建設數(shù)據(jù)庫的工作需要目標驅動,建立古詩文數(shù)據(jù)庫也是推進研究的基礎,具有廣闊前景。
第二組的報告交流由朱翠萍(中華書局)與唐宸(安徽大學)主持、評議。李斌(南京師范大學)、何盈學(華東師范大學)、高策(清華大學)的合作研究《多源數(shù)據(jù)參照的古典詩歌立體遠讀法初探——以乾隆四萬余首御制詩為例》將多源數(shù)據(jù)參照的古典詩歌“立體遠讀法”應用于乾隆御制詩的研究中。研究首先通過版本選擇、結構化整理、數(shù)據(jù)清洗、自動標點等步驟,構建起乾隆詩全文數(shù)據(jù)庫;進而對創(chuàng)作風格與頻率兩個疑難問題進行重點分析。這一研究推動了對大規(guī)模文獻乾隆詩的整體把握,避免對單一文本數(shù)據(jù)、孤立的統(tǒng)計分析,具有方法論層面的探索價值。清華大學李飛躍與宋佳霏《基于文本相似度分析的<紅樓夢>詩詞溯源研究》一文利用數(shù)字人文方法的“編輯距離”“詞袋模型”“doc2vec”與“LDA主題模型”,篩選出《紅樓夢》所化用的唐宋詩句及其詩集來源,分析它們在詞句、篇章層面的關系,從而探究曹雪芹的閱讀經(jīng)驗與《紅樓夢》詩意風格的生成關系。通過分析這些詩句在康乾時期的所屬詩歌選本及其版本流傳狀況,認為《才調集》等選本對《紅樓夢》的詩歌創(chuàng)作或具有直接影響。同時,報告通過與傳統(tǒng)文本細讀方法的比較,指出了文本相似度分析方法的得失并提出了改進方法。韓玉鳳(清華大學)《唐宋詩中的“江湖”書寫》一文以“江湖”的詞旨演變?yōu)榍腥朦c,考察唐宋兩代詩人使用“江湖”的用法差異。通過構建《全唐詩》《全宋詩》中與“江湖”一詞的共現(xiàn)矩陣,發(fā)現(xiàn)唐宋“江湖”詩歌多與送別、貶謫等語用背景相關;相較于唐,宋代“江湖”詩有著更為強烈的時空意識。唐宋言及“江湖”較多的詩人中,唐代杜甫、白居易偏愛“隱居”義,宋代詩人則廣泛使用“江湖”多層含義。唐宋詩“江湖”指向地點均以南方區(qū)域為主,唐代多指向江淮、荊楚、巴蜀、嶺南等區(qū)域;宋代指涉地多為長江流域,這與兩代不同的制度和交通背景有關。吳奕燊(清華大學)與黎泓(倫敦大學學院)的《古典詩詞的空間分析途徑初探——以李杜詩比較為例》一文以李白、杜甫詩歌的比較為中心,將現(xiàn)有作家的生平行跡與作品編年系地數(shù)據(jù)、作品寫作地與寫及地數(shù)據(jù)、作家社會關系數(shù)據(jù)、歷史地理地圖基礎數(shù)據(jù)結構化,從而形成后續(xù)研究的參照坐標,這一研究的意義在于挖掘作家對文學史地理意象的貢獻,對現(xiàn)有主流社會關系網(wǎng)絡分析工具的“籍貫定位”局限性起到有效彌補作用,也有助于對作家文學書寫的空間距離作個案分析。在評議與討論環(huán)節(jié),與會學者們指出,基于計算語言學及相關研究的相似度分析與運用了GIS等技術的地理信息空間是本組報告集中應用的兩種手段,關注于類似的交叉與拓展,對于傳統(tǒng)文科研究大有裨益。
“古典詩歌與聲律專場”的四個討論專題,基本包含了當前古典詩歌與數(shù)字人文交叉互動的主要可能。聲律研究以其數(shù)據(jù)完備、方法清晰的特征能夠與數(shù)字人文方法較好結合,因而在此次論壇中給予了更多關注。然而聲律并非古典詩歌形式的唯一向度,在闡釋分析數(shù)據(jù)的時候不僅應關注聲律數(shù)據(jù)本身,同時也需要著眼于與之緊密相關的節(jié)奏、句法因素,并且從語言學、漢語史的視角看聲律因素的生成與變化。在基礎設施建設討論組,“搜韻”與“九歌”團隊也帶來了精彩分享,為用戶提供了知其然與所以然的機會。此外,本組關于分詞、編碼、可視化等細部問題的討論也有益于人文與技術的深入融通。“詩學研究的數(shù)字人文應用”組通過拓展論題,探究了古典詩歌的遠讀的諸種可能。“遠讀”概念最初由Franco Moretti在《世界文學猜想》一文中提出,主要針對大量無法細讀的非經(jīng)典以及浩如煙海的跨語言文本,討論組里的幾篇報告文章讓我們在這兩個維度上看到了新的可能,沒有局限于可視化呈現(xiàn),而是致力于文本挖掘和知識發(fā)現(xiàn),很好地踐行了“數(shù)字讓人文更新”的理念。
Network Analysis and the Special Issue Launch
網(wǎng)絡分析專題暨專刊發(fā)布會
“網(wǎng)絡分析專題暨??l(fā)布會”以“從隱喻到模型:作為研究與批評路徑的網(wǎng)絡分析”為主題,由巴克內(nèi)爾大學東亞系的陳松副教授和中國社會科學院文學研究所助理研究員趙薇負責召集和組織。來自清華大學、社科院文學所、巴克內(nèi)爾大學、南京大學、北京大學、中國人民大學、哈爾濱工業(yè)大學、陜西師范大學、南京師范大學、浙江大學、南京農(nóng)業(yè)大學、澳門理工大學、嶺南大學、南洋理工大學、芝加哥大學、斯坦福大學、加州州立大學、加州大學爾灣分校、伊利諾伊大學厄巴納-香檳分校、中央華盛頓大學、波士頓大學、阿斯伯里大學、威廉瑪麗學院、哥廷根大學的三十多位跨學科學者、二百余位海內(nèi)外聽眾齊聚線上,就中文網(wǎng)絡分析在人文研究和計算批評中的新進展展開研討。
11月12日上午的“人文網(wǎng)絡分析的實踐探索”專場伊始,《數(shù)字人文·網(wǎng)絡分析??罚?022年第1期)執(zhí)行主編趙薇回顧了與陳松教授一道,歷時三載的醞釀和籌備過程,對各位作者自始至終的信任和支持表示誠摯感謝;對??u審人及作者、編者在這個過程中表現(xiàn)出的遠遠超出傳統(tǒng)治學的嚴謹態(tài)度和探索熱情致以敬意。同時也深刻地感到,盡管自1990年代起,網(wǎng)絡分析便被中國的社會學家,人類學家用于非正式關系的研究,但它鄭重地用于實打實的人文問題,逐漸進入傳統(tǒng)學者的眼簾,從而成為一種獨立的研究路向,真正凝聚起一批人,卻是近幾年的事。網(wǎng)絡分析不僅實現(xiàn)了從早期作為人際關系的“隱喻”,到研究關系結構的“模型”這樣一個“概念上的飛躍”,也開始由建模而走向“批評”,為人文學術帶來洞見和影響,因而很有必要以??男问綄⑦@一趨勢勾勒、呈現(xiàn)出來。
上半場三位報告者的聚焦點是純文本網(wǎng)絡的分析與批評。來自加州州立大學薩克拉門托分校人文與宗教研究系及歷史系的秦穎博士,根據(jù)人物對話的方向和次數(shù),構建了《唐語林》的對話關系網(wǎng)絡,對宋代軼事小說中“語”的性質和其編纂傾向做了深入探究和反思?;趯嶓w共現(xiàn),伊利諾伊大學厄巴納—香檳分校的尚聞一博士提取《世說新語》中人物互動關系,運用網(wǎng)絡模擬、指數(shù)隨機圖模型、社群發(fā)現(xiàn)等多種手段,層層推理、驗證了小說中門閥貴族的身份標識是否凝聚成有效社群的問題,在社會史的向度上拓展、深化了對歷史經(jīng)典論斷的討論。來自南洋理工大學的馬昭儀代表“空間人文與場所計算實驗室”團隊發(fā)言,他們采集155部唐傳奇文本中的OD數(shù)據(jù),以唐長安城的坊里為節(jié)點、以故事人物在不同坊里間的移動軌跡為邊,構建出坊里空間交互網(wǎng)絡,將中心度、模塊化的計算和文學制圖、空間插值等人文地理的分析手段結合,對各個坊里的重要性及其彼此之間的相互聯(lián)系做分析,探索了社會權力結構更迭的空間表征形式。
這一場的評議嘉賓,南京師范大學文學院實驗中心許超主任肯定了秦穎研究對歷史和文學因素的謹慎區(qū)分,尤其贊賞其靈活運用點擊度分析,從一千多條軼事材料中發(fā)現(xiàn)了“玄宗因素”及其在文本后半部分的“反轉”。尚聞一的網(wǎng)絡不僅基于語義,而且具有現(xiàn)實的社會歷史意義,他的分析和做法有很高的借鑒意義,可以進一步嘗試不同的聚類算法,找出異常值,同時擴大網(wǎng)絡規(guī)模、嘗試不同的經(jīng)驗性賦值。許超也指出,古代文獻自動抽取關系的準確率不高,人工提取反而較好;而數(shù)據(jù)如果過于稀疏,難以分出有意義的網(wǎng)絡,歷史價值的闡釋較為困難,但是單純的敘事分析卻自有閃光點。評議嘉賓南京大學歷史學院王濤教授高度贊許何捷教授團隊將可見度指標引入社會感知分析的創(chuàng)造性做法,建議進一步排除提取節(jié)點異常值影響,并結合小說文本中的具體案例做分析,以增添結論的說服力。
下半場論由《數(shù)字人文》副主編、《澳門理工學報》的桑海主持。來自陜西師范大學歷史文化學院的張光偉主任以西夏文字典《文海》中所收的字為節(jié)點、以解釋關系為邊,將整部字典轉化為有向網(wǎng)絡,通過重復刪除出度為零的節(jié)點找出基本字集,全面發(fā)現(xiàn)《文?!分械难h(huán)解釋現(xiàn)象,從而重建了西夏字的解釋層級。其后,南京農(nóng)業(yè)大學人文與社會發(fā)展學院李惠副教授對社會網(wǎng)絡分析的常用算法和模型進行了細致評估,并對其中可能存在的不足做出說明。中國人民大學信息資源管理學院博士后研究員嚴承希從互文性理論入手,采用編輯距離、字符串匹配等文本復用算法,建立起基于句串相似度的中國古代“十三經(jīng)”互文數(shù)據(jù)集,開發(fā)出實用的系統(tǒng),實現(xiàn)了內(nèi)、外部互文性可視化分析與瀏覽,也初步展示了互文網(wǎng)絡的生成。
下半場的發(fā)表得到南京大學歷史學院王濤教授和邱偉云副教授的熱烈回應。王濤認為張光偉的研究在人文基礎設施建設上具有開拓意義,為后續(xù)西夏文研究夯實了根基,同時提出算法應用于死文字研究的通用性問題,以及套用其他語種字典進行反證的可能性。評議嘉賓邱偉云副教授亦非常欽佩張光偉的做法,指出可以進一步會通概念史研究路徑,探析漢人與西夏人在各自字詞典中所體現(xiàn)出的概念分類系統(tǒng)上的異同,進行思想觀念的比較與互動研究。針對李惠的發(fā)表,邱偉云建議未來可嘗試對中國特有關系網(wǎng)絡社會模式進行探勘和多重建模,并與當前已建構的全球網(wǎng)絡模型進行比較,推出具有中國特色的社會網(wǎng)絡模式。他也充分肯定了嚴承希研究的實踐意義,認為可進一步關注中國傳統(tǒng)經(jīng)典在互文過程中的傳播與接受問題,期待對先秦典籍在互文網(wǎng)絡中的分群現(xiàn)象的新探索,進而驗證乃至商榷目前常見的先秦諸子學分類的適當性;而經(jīng)過計算巨量文章中的言說修辭的互文,還可探討其背后所隱含的思維框架及意義。
發(fā)布會的第二個專場“海外漢學中的網(wǎng)絡分析”于2022年11月13日上午以Zoom Webinar的形式在線上舉辦,由本次??牧硪晃粓?zhí)行主編陳松主持,十余位海內(nèi)外學者分別做了英文發(fā)言和評議、討論。中央華盛頓大學的歷史學家林如蓮(Marilyn Levine)教授首先展示了近四十年來綜合實地訪談、檔案收集和電子化,堅持不懈地建設中國人物傳記資料庫(CBD)的辛勞工作。隨后,重點陳述了如何運用層次聚類和網(wǎng)絡分析的方法,將屬性數(shù)據(jù)轉化為關系數(shù)據(jù),構建起一戰(zhàn)后中國旅歐知識分子群體的社會網(wǎng)絡,用以考察其組織和活動情況。這項數(shù)字人文研究為早期黨史研究貢獻了寶貴資料和全新視角。哥廷根大學東亞研究系盧嫻立(Henrike Rudolph)助理教授聚焦二十世紀八十年代出版的一項中國婦女活動家集體傳記,運用雙模網(wǎng)絡分析人物-事件-機構等等傳記節(jié)點,將潛隱于正統(tǒng)歷史敘述背后的、被遮蔽的賦權結構揭示了出來。斯坦福大學東亞語言與文化研究系馬杰(Maciej Patryk Kurzynski)博士的研究,則借助詞嵌入、主題模型和網(wǎng)絡分析,設計出一套測度崇高美學效應的計算模型,并通過對兩部當代長篇小說詞匯網(wǎng)絡的中心度分析與計算批評,為人們在革命或后革命氛圍中重新理解崇高修辭的生產(chǎn)機制提供了量化視角。
評議嘉賓Paul Vierthaler (李友仁)助理教授,是來自威廉瑪麗學院的青年漢學家,數(shù)字人文學者。他認為林如蓮運用層次聚類的多變量分析手段和網(wǎng)絡分析結合的做法值得稱道,這種方法利用成百上千的人物屬性數(shù)據(jù),如籍貫,年齡,留學,機構等等,展現(xiàn)了個人之間不同尋常的迷人聯(lián)系,這是傳統(tǒng)路徑難以呈現(xiàn)的。同時他也對這些基本數(shù)據(jù)的具體樣式感到好奇。李友仁贊賞盧嫻立致力于開發(fā)本體來為數(shù)據(jù)建模的做法,將人物關系與傳記節(jié)點分開后,更便于人們認清傳記資料實際上傳達了怎樣的思想,女性以什么樣的身份被編織進了歷史敘事。而1949年前后網(wǎng)絡的對比,則帶來了更多吸引人的發(fā)現(xiàn)。針對Kurzynski的報告,李友仁認為作者以一種十分有價值的方式,不僅將中國文學敘事中的崇高時刻展現(xiàn)出來,而且將它們之間的關系從敘事框架中突出出來。在這個過程中,Kurzynski使用了高爾基的《海燕》來引導語義模型,而句子共現(xiàn)的窗口大小,也會影響最終的提取結果。在這一場的問答和討論環(huán)節(jié)中,兩位發(fā)言人分別做出回應。林如蓮教授展現(xiàn)了高維屬性數(shù)據(jù)的編碼方式,Kurzynski博士則回答了嶺南大學環(huán)球中國文化高研院黃峪博士關于文學遠讀的問題。趙薇與林如蓮教授分享了啟用相同方法構建文體網(wǎng)絡時遇到的困難,如降維帶來的數(shù)據(jù)丟失問題,還對這種以屬性相似性為基礎的網(wǎng)絡中心度計算的實質究竟為何提出自己的看法。
下半場的“工具、平臺和基礎設施”專題由浙江大學海寧國際校區(qū)人文社科研究中心姜文濤副主任主持,共有三個團隊的學者發(fā)言。作為一個合作團隊,阿斯伯里大學社會科學與歷史系助理教授馬飛立(Alex Mayfield)、波士頓大學的梅歐金(Eugenio Menegon)和Daryl Ireland博士,認識到目前亞洲研究面臨的問題與挑戰(zhàn),著手開發(fā)了中國基督教歷史資料庫(CHCD)。他們以現(xiàn)今人文數(shù)據(jù)庫中仍不多見的Neo4j圖數(shù)據(jù)庫管理系統(tǒng)為底層技術,通過語義三元組的結構來儲存數(shù)據(jù),搭建了簡潔易操作的人機交互界面,用戶可調節(jié)參數(shù),檢索并生成有關數(shù)據(jù)庫中的人,機構和地點等實體之間的網(wǎng)絡。芝加哥大學Digital Studies項目的康森杰(Jeffrey Tharsen)副主任和ARTFL項目的格拉德斯通(Clovis Gladstone)副主任,采用基因序列比對和向量空間相似性計算的辦法,建立了用于文本互文性查詢和交互可視化的TextPAIR平臺,可將“二十四史”中的全部借用、引用,或構成影響關系的相似段落提取出來并建立關系網(wǎng)絡,以期發(fā)現(xiàn)不同以往的宏觀模式。最后,加州大學爾灣分校東亞語言與文學系榮休教授、著名漢學家傅君勱(Michael Fuller)教授做了題為“Exploring Multidimensional Relations with the China Biographical Database”的報告。重點談及如何將CBDB傳記資料庫中的人物放置在多維屬性數(shù)據(jù)中(如生辰,親屬,師承,任職等),來構建復雜網(wǎng)絡,進行比較研究。
評議嘉賓北京大學信息科學技術學院袁曉如教授從可視化角度,以及用戶、數(shù)據(jù)和交互性三個層面,對現(xiàn)有工具的局限性做了評估和分析,并呼吁跨學科合作,建設用戶使用體驗更好的、溝通專家與普通用戶的中介性平臺。在問答環(huán)節(jié),Mayfield團隊回應了陳松所關心的可否將數(shù)據(jù)和結果導出用于自行分析的問題,歡迎更多的學者來親自探索這個交互平臺。本場由陳松教授做總結發(fā)言,他對合作編輯人、各位供稿學者、技術支持人員以及??鬓k方在編纂與發(fā)布過程中的支持表示感謝,也對因非學術因素而帶來的出版延遲表示歉意。
兩天的論壇圓滿落幕。誠如召集者所說,他們固然無法用一場論壇,一期刊物的形式,將國內(nèi)外從事人文網(wǎng)絡分析研究的高手一網(wǎng)打盡,但卻希望能夠就此形成一束高質量的、具有創(chuàng)新價值的經(jīng)驗集合。不僅對于推動中文文、史網(wǎng)絡分析的研究和批評意義重大,同時也開啟了真正自由探討的氣氛。對他們而言,數(shù)字人文需要這種深入的討論,甚至數(shù)字人文自身更存在于這種充滿了探索,疑問和不確定性的過程之中。
數(shù)字人文的未來更在青年學者身上。專門面向在校生和青年學者的“未來學者”專欄、專場,一直是《數(shù)字人文》的特色,旨在發(fā)掘新人,鼓勵合作,大膽促成新觀點、新方法。本次專場由清華大學人文學院教師嚴程負責召集和主持,分為現(xiàn)代場和古代專場,一共有十位來自清華大學、南京大學、復旦大學、北京語言大學等高校的純?nèi)宋谋尘暗谋究粕痛T士研究生分享了他們的個案研究,可以說是近年來正在實驗中的數(shù)字人文教學實踐的一次初步成果集結。
董曉涵:《性別試驗場:ABO小說中女性意識初探》利用共詞分析方法,統(tǒng)計多部ABO小說中熱點形容詞與主人公ABO性別和自然性別的共現(xiàn)頻次,構建語詞網(wǎng)絡,結合文本人工泛讀,探討其中反映的性別意識。王濤、桑海和趙薇老師認為該選題很有價值,是網(wǎng)絡文化與數(shù)字人文結合的常識性探索,但需要有更強的問題意識來指引;在概念界定和結果闡釋方面,也要做更精細的工作。
康吉贏:《數(shù)字時代的生態(tài)小說研究 從概念驗證到計算批評》設計了量化實驗,驗證了二十世紀的生態(tài)話語進入美國小說敘事體系的過程中小說“生態(tài)程度”的發(fā)展演變。王濤和桑海老師充分肯定了其對相關分析的創(chuàng)新應用,以公式和曲線的遠讀方式來勾勒百年小說的生態(tài)化程度也令人耳目一新。不過,關于生態(tài)文學的概念仍然需要細致界定;在論證上,選擇文本和證明方式有循環(huán)論證之虞,也需要注意。
雷征宇:《“Humanist”線上數(shù)字人文研討會:組成、內(nèi)容及展望(1987-2018)》對歷史上活躍至今的“Humanist”郵件群組的發(fā)展情況做了數(shù)字人文分析。桑海和趙薇老師認為其選題意識,以及融宏觀觀察和微觀關照于一身的角度尤其可嘉,也期待看到更加有機、全面、深入的延伸性探索。
吳桐:《社會關系隔閡與非理性情感宣泄》運用詞向量建模,網(wǎng)絡分析等方法探討《第二十二條軍規(guī)》文本中意象與情感關系,對人物處于“非理性”狀態(tài)的語言特征進行驗證。王濤老師認為一個本科低年級學生能運用眾多工具比較到位地論證問題很不容易。也指出用情感詞典進行情感分析的風險。桑海老師認為需要多運用國外的研究成果,意象詞匯和情感詞匯需要有明確的界定。姜文濤老師提出“非理性情感”“社會關系隔閡”等概念也需明確,同時社會性也應考慮進去。
下半場有五篇論文分享,涉及先秦到明清的論題。
付慧琳的《社會角色視角下的古代女性書畫家群體分析》借助echarts等工具將古代[zw1] 女性書畫家群體形象的關鍵信息進行了可視化轉譯,從群體特征的角度對古代女性書畫家進行形象建構。朱翠萍老師認為需要明確文章中44位畫家的代表性,論證“師徒傳承”這一角度的文獻全面性和有效性;邱偉云老師和唐宸老師就數(shù)據(jù)結構和數(shù)據(jù)量的擴充提出期望。許可老師對文章的具體內(nèi)容進行了詳細評議,并就明確 “社會角色”、完善摘要信息給出了具體建議;老師們表達了對數(shù)據(jù)和結論進一步完善的期待。
黃煥波的《干支與吉兇——金文所見周人諏日方法的一種模型》一文借助統(tǒng)計方式對“初吉”的問題進行了探索。朱翠萍老師肯定了文章明確的問題意識。唐宸老師認為文章創(chuàng)新性強,學術態(tài)度嚴謹,提示作者要看到歷時性變化和特定場合吉日的不同,并建議與當時的立法環(huán)境相結合。邱偉云老師提出,“陽日”“陰日”的名詞作為發(fā)明的概念是否會與傳統(tǒng)的“陰”“陽”觀念發(fā)生混淆;“諏日”一詞指的是在哪一天舉行占卜,用這個詞做標題是否會引起爭議;對系統(tǒng)做驗證時可以考慮進一步擴展數(shù)據(jù)量。
劉夢涵的《古典詩詞“參橫”意象的時令規(guī)律與審美價值——基于數(shù)字人文天象模擬技術的探析》借助天文軟件,模擬蘇軾、陸游、朱彝尊等名家作品中的天文現(xiàn)象,歸納古典詩詞中參橫意象的審美價值。朱翠萍老師認為此文帶有明確的問題意識,從科學入手,再從敘事出。唐宸老師評價說:天文軟件能夠對文學考證起作用,本論文創(chuàng)新性強。不過對于時令規(guī)律的邊界可以細化;學術語言可以再多加錘煉。許可老師也建議圖片可以再豐富一些,內(nèi)容會更完善。
徐藝瑋:《晚清以降中文書面語中顏色詞的使用與演變》根據(jù)洋務運動至今的中國報紙數(shù)據(jù),對顏色及其共現(xiàn)詞進行分析,挖掘顏色反映出的歷史環(huán)境變化及與文化發(fā)展的關系。朱翠萍老師點評說:選取的數(shù)據(jù)量大,說服力大,相對可靠,未來可以嘗試按照專題分開,延伸到不同領域,使結論更豐富。邱偉云老師認為要說明如何分層抽樣及去重。許可老師建議可以進一步縮小范圍,比如針對廣告文獻作相關探討。
張琳越、鐘鈺婷的《數(shù)字人文視域下湯顯祖“臨川四夢”比較分析》借助現(xiàn)代技術手段,從詞頻、人物社會網(wǎng)絡等四方面分析四部作品,對于學界目前對湯顯祖的一些論斷提出新的見解。朱翠萍老師認為采用遠讀的方式,解決了二夢與三夢的爭端。不過數(shù)據(jù)量相對小,可以擴大到整個傳奇來看;也可以放在跨文化的視野下與西方的文獻對比探討。唐宸老師認為有些論述和分析可再加強,《邯鄲記》的情感方面的論述可以展開;重視原生文本以及傳奇對它的影響。許可老師認為得出的結論與數(shù)字人文要更加結合,用數(shù)據(jù)要來支撐結論。
獲得了從事數(shù)字人文研究的老師們細致深入的點評,同學們紛紛表示受益匪淺。未來學者專場圓滿落下帷幕。
Closing Ceremony
閉幕式
持續(xù)兩天的三個分論壇之后,舉行了簡短的閉幕式?!稊?shù)字人文》副主編桑海代表論壇組委會公布了第三屆“未來學者”優(yōu)秀論文評選結果。與以往不同的是,本屆論壇獲獎文章從全體參加論壇的在校生中產(chǎn)生,不再局限于學生分論壇。經(jīng)過與會專家的投票評選,陸泉宇獲得“第三屆清華數(shù)字人文論壇未來學者優(yōu)秀論文”一等獎,徐藝瑋、黃煥波獲二等獎,劉夢涵、康吉贏、曲一迪/韓玉鳳獲三等獎。其中,陸泉宇、劉夢涵、康吉贏等三位同學的獲獎論文都是在本科課程作業(yè)的基礎上完成的。
最后,桑海副主編對第三屆清華數(shù)字人文國際論壇作了總結。他首先回顧了三屆數(shù)字人文論壇的歷史,憶及《數(shù)字人文》團隊的創(chuàng)始和發(fā)展過程。2017 年第一屆論壇是國內(nèi)首次以“文學研究”為主題的數(shù)字人文國際會議。劉石教授當時就寄予厚望,對數(shù)字人文在文學研究中的前景充滿期待,會議的一些召集人和參與者后來也成為團隊骨干。時隔兩年,在第二屆論壇召開時,清華大學數(shù)字人文已發(fā)生了“狂飆突進”的變化,在論壇上發(fā)布了《數(shù)字人文》創(chuàng)刊號,成為中國大陸正式出版的第一本數(shù)字人文學刊。在這兩屆論壇之間,劉石教授主持的國家社科基金重大項目“大數(shù)據(jù)技術與古典文學文本研究”立項,《數(shù)字人文》也在摸索中逐步進入狀態(tài)。編輯部始終堅持嚴肅的學術精神,不輕易擴大數(shù)字人文概念的邊界,努力探索中國數(shù)字人文研究的學術標準,對缺乏問題意識或徒有技術卻不具人文性的研究持審慎態(tài)度。第三屆論壇體現(xiàn)出團隊在研究和教學上新的突破,更加具體、接地氣,三個主題分別聚焦于“聲律”這一研究領域、“社會網(wǎng)絡”這一研究方法,以及“未來學者”這一關乎數(shù)字人文后勁的重要面向。聲律是傳統(tǒng)詩歌研究中的重要問題,但因文本量龐大,只能舉例論證,歷來聚訟紛紜,而數(shù)字人文方法使得對詩歌聲律進行總體統(tǒng)計分析和建模成為可能。在論壇中既能看到謝思煒教授這樣造詣精深的古典文學研究者,也有剛進入該領域的新銳學者,特別是孫茂松教授領銜的“九歌”作詩團隊,雖是計算機專家,卻有對人文的熱愛和尊重。他在繁忙的計算機學術工作中分出一脈情懷來專事研究與開發(fā),為數(shù)字人文學者樹立了好樣板。網(wǎng)絡分析論壇展示了網(wǎng)絡分析方法從隱喻到模型的發(fā)展軌跡,及其應用于中國文史研究所誕生的新成果。網(wǎng)絡分析??瘓?zhí)行主編陳松和趙薇也為此付出了巨大努力,希望后續(xù)的一系列??环艞墭藴剩阶鲈接刑厣?。最后,在未來學者論壇中,我們真正感受到了后生可畏,對于數(shù)字原生一代的青年學生,數(shù)字與人文的關系更加自然,或許孕育了更多令人驚喜的發(fā)現(xiàn)。
我要收藏
個贊
評論排行