通過詞頻統計快速抓取《紅樓夢》中的730多個人名;利用三維建模和3D打印技術“重塑”云岡石窟第十二窟;抓取分析人氣值、集資榜數據,研究《創造營2020》等熱門綜藝節目的粉絲行為……如今,大數據、云計算、人工智能等數字技術與人文研究的結合正催生出“數字人文”的全新研究范式,在驅動學術生產方式變革的同時,其創新研究成果也逐步惠及大眾。
數字人文是研究者采用數字技術來解決人文領域研究問題的跨學科實踐。其歷史最早可以追溯到1949年的“阿奎那項目”,即用計算機對中世紀經院哲學家托馬斯·阿奎那的全部著作及相關文獻制作語詞索引。數字人文最核心的特征是用數字技術解決傳統人文學研究中遇到的、傳統手段無法解決的問題。這樣說來,恐怕還略顯抽象,我們不妨舉幾個數字人文在不同學科的應用案例。
文學研究方面,令研究者發愁的一個問題就是海量文學作品并沒有進入研究視野,進而對文學創作的總體情況缺乏高屋建瓴式的準確把握。2019年,中國新版當代小說就有5542種之多,更別提汗牛充棟的網絡文學了。當年網絡文學注冊作者已達1755萬人,其作品量可想而知。因此,想要把握當下創作的潮流和趨勢,數字人文給出的辦法是“遠讀”(distant reading),與貼近作品、以準確把握某一文本為目標的“細讀”(close reading)相對,遠讀將鏡頭拉得更遠、視角更廣,考察作品的范圍更大,通過忽略無關的細節信息,利用數字技術從宏觀上更加客觀準確地描摹出文學創作的概貌。
2018年,谷臻故事工場CEO走走通過抓取1979年至2018年40年間,680位作者發表在《收獲》雜志上的1618篇長中短篇小說,從每十年的地理位置變化、明快—沉郁作品比例、影視改編類型曲線、主題變遷等6個維度著手,解讀《收獲》40年作品風格的變化趨勢,是遠讀研究方法的一次嘗試。通過對小說文本的詞頻數據分析,他們發現《收獲》第一個十年(1979年—1989年)刊載作品的高頻詞是“我要”,反映了作家主體意識的覺醒和自我表達欲望的提升;第二個十年(1990年-1999年)的表達主體從“我”擴展到“我們”,“家庭”倫理關系成為最受關注的話題;第三、第四個十年中,文學創作也呈現出各自不同的特點。如果通過人工閱讀得出相似結論,恐怕要大費一番周折。
此外,數字人文還可為人文學研究中的疑難問題提供全新的解決思路,實現了科技和人文的跨界破壁。明初重要詩人楊基的出生年月一直存在爭議。有研究者根據他《梁園飲酒歌》一詩中“我生之辰木入斗,烏啼東井命壁守。壁為文府斗為歲,許我文章播人口。”將楊基出生地蘇州天平山的GPS坐標、時區導入軟件,加載黃道坐標后計算出他的生日在1331年12月4日至次年1月25日之間,為文學史研究提供了更為可靠的證據支撐。河北大學研究人員借助聲門儀、呼吸帶、眼動儀等設備記錄保存傳統戲曲保定老調,可以精確記錄表演者的聲帶振動頻率、幅度、節奏和呼吸信號以及眼神表達和視線焦點。通過對這些數據的分析,有可能找到戲曲表演“韻味”形成的密碼。
在文化遺產保護利用方面,數字人文更是發揮著不可替代的作用。通過平面和立體掃描、智能文本識別,可以完成古籍文獻、藝術品甚至建筑的數字化數據采集,形成穩定安全可靠、可重復利用、獲取便利的數字資源,這不僅是獲取學術研究資料的必要環節,其成果通過轉化利用,更可面向大眾發揮文化普及的教育功能。經過30多年數字化技術的發展,目前敦煌研究院已完成230多個洞窟的數據采集、145個洞窟的圖像拼接、160多個洞窟的虛擬漫游和三維空間結構以及42身的彩塑三維重建。利用相關數字化成果,敦煌研究院面向大眾推出了“云游敦煌”微信小程序等一系列線上“云展覽”,讓數字人文的成果為全社會共享。
以上只是數字人文應用前景的冰山一角,更多的跨學科交叉研究正在展開。有研究顯示,數字人文研究論文分布在102個學科領域中,計算語言學、計量史學等新興學科不斷涌現。未來的人文學研究將搭上數字化時代的快車,相關成果也將更好地為社會大眾服務。
更多精彩內容,請點擊進入文化產業頻道>>>>>
(責任編輯:
魏金金
)