數字人文的文學之維 ——相關軟件介紹與未來軟件展望
數字人文(Digital Humanity)旨在以數御文,是一種交叉學科研究方法,學者用各類數字技術探索人文、社科現象,得出量化結果并將其進行可視化呈現。在世界范圍內,自羅伯特·布薩(Roberto Busa)編纂托馬斯·阿奎那的著作索引始,數字人文研究經歷了由無到有、由少到多的演變,在英美學界相關雜志陸續誕生,相關項目層出不窮,名稱和定位也經歷了由人文計算(Humanities computing)到數字人文的改變。究其大略,其演進與計算機技術的發展呈正相關關系,90年代起私人電腦的廣泛普及促進了其研究的豐富,近些年人工智能技術的熱潮,更對其有推波助瀾之勢。
在中國,錢鍾書先生獨具只眼,最早察覺之,授意并助力在社科院啟動相關研究。2000年以后,國內相關研究日漸豐富起來,相關會議陸續召開、有關公眾號和雜志陸續誕生。如今,數字人文方法在歷史學界、社會學界應用較廣,常通過gephi、metlab等數字工具構建社會網絡,從而理解歷史潮流大勢走向。而具體到文學研究領域,這種研究方法的應用尚且有限。
談到數字人文方法在文學界的應用,我們不妨戲仿韋勒克的觀念,將其分為外部研究與內部研究。所謂外部研究,指的是通過社會網絡分析法,將作家生平、交游、空間走向等可視化,通過作家的外部數據分析,可以了解作家的接受程度,以及它與后代讀者、研究者之關系。外部研究依賴于相關數據的整理工作,例如,布朗大學的“WOMAN WRITERS PROJECT”項目,致力于收集和整理收集了16世紀至19世紀中葉被忽視的女性創作或合著的作品,這類工作也被稱為“數字檔案館”。
而數字人文的文學研究有一個更有魅惑力的領域——數字化“內部研究”,可以對于文本進行內部分析,不妨稱之為“量化新批評”,也可對于某些詞匯和語篇的歷史變化進行分析,不妨稱之為“量化概念史”,它最終會幫助發現一段歷史的文學內部構型,與傳統研究法有頗多可對話之處。毫無疑問的是,此類研究非常依賴于相關工具的成熟,本文將介紹幾類國外的相關軟件工具,呈現國外此類研究的樣貌和走勢,以期為國內相關研究提供參照。
“WordHorad”是一款文學語言分析軟件,它的開發者將他們的行為稱為“在解鎖語言的寶藏”,的確,通過高度標記化的語料數據,以及對這些數據分布規律的發掘,我們可以獲得觀察這些虛構文學文本的另一只眼睛。“WordHoard”主要通過關鍵詞提取和互相呈現的方法,對文學文本進行研究,在“WordHoard”的官方示例中,它展示了一些有趣的案例,例如“love”一詞的研究,它在喬叟、莎士比亞等人那里呈現的不同拼寫特點,在不同的歷史時期有著不同的分布規律,通過對“love”進行統計,研究者得出了很有趣的結論:在各類敘事文本中,愛被男性說出的次數多于女性,在喜劇類文本中,被女性說出的次數則是男性的三倍,這一結果揭示了“love”的文本秘密,愛要怎么說出口?這非常值得文學史家的重視和進一步分析。
案例還提供了關于4位大作家的語言統計表——
通過這樣的表格可以發現,荷馬、喬叟、斯賓塞、莎士比亞的風格與他們所處時代的變遷得到了一種獨特的呈現,通過主題詞的變遷,我們能夠窺見不同時代的文學主題與不同作家的文本主題,達成對一位作家語言無意識的理解。就名詞而言,在莎士比亞的所有文本中,愛是出場率第四高的名詞,只有主(lord)、人(man)和先生(sir)三個詞出場率高于愛,而其他三位作家所使用的最高頻名詞則沒有愛(love),無論莎士比亞是偉大的愛情謳歌者,還是偉大的愛情質疑者,愛都是其一個重要表現和反思主題。
谷歌是人工智能領域的領頭羊,而谷歌圖書中收錄的大量書籍,谷歌搜索中存在的大量網頁文字數據,以及谷歌學術中的學術文字記錄,都為構建這樣一個龐大的語料庫有所助益。它出品的在線工具“Google Ngram viewer”主要基于谷歌圖書的語料庫,方便展現不同語詞在歷史上的整體變化。通過輸入想要查找的關鍵詞,便可以看到在相關語料中,隨著歷史發展,相關詞語的變化趨勢。例如,筆者將時間限定為1940-2000年,鍵入孔子、孟子、老子、莊子、朱熹等中國歷代思想家,可以發現,它們歷年在數據庫中的權重變化,這一數據顯示,孔子無疑是最有熱度的思想家,與學者和相關論者的思想勾連也最為密切。
再如,可以選取幾位當代作家,如莫言、余華、王朔,觀察自1980年代以來,在紙質書數據庫中他們的權重走勢。
可見,這些走勢也值得文學史家的注意,如果加入更多的比較維度,無疑會誕生更多有趣的研究成果。
21世紀,自人工智能技術得到了重要突破后,自然語言處理(NLP)相關技術得到了突飛猛進,如今大數據、人工智能等關鍵詞人盡皆知,而機器翻譯、語音識別、人機對話等功能也在手機端得到了廣泛的應用,我們的日常生活常常與它糾纏為一體。自然語言處理技術對文學產生了一定影響,促生了引發廣泛爭議的“機器人寫詩”現象,引得無數文學從業者困惑于詩歌的邊界,也引得諸多哲學家討論人類與機器的邊界。另一方面,自然語言處理技術對文學研究也產生了很多介入的可能。
建立在自然語言處理基礎上的相關研究,為文學研究提供了新的可能。“NLTK”全稱為"Natural Language Toolkit",是賓夕法尼亞大學發布的自然語言處理工具,幾乎是聲名最為響亮的處理工具,它需要通過計算機python語言來操作和使用,該模塊中包含了大量的語料資源,如《圣經》、莎士比亞的《哈姆雷特》等多部戲劇、簡·奧斯丁的小說、惠特曼的詩集等,除此之外,它也包含路透社的新聞文檔、美國總統的演講集、一些電影劇本原文、網友的網絡論壇聊天記錄,其文本含量不可謂不豐富,源自不同歷史階段的詞語儲備不可謂不全面。而“NLTK”中的內置函數和功能,則有助于深度挖掘文本的表達結構,細致探索其語言模式,詳盡勾勒其語言地貌。例如“similiarity”函數有助于幫助計算詞匯相似度,“len”函數有助于發現文本的復雜程度,“concordance”函數有助于發現某些特定詞匯的上下文等等。
在官方相關示例中,一些獨特的研究結果已經被呈現出來,例如,在不同時代的美國總統演講中,總統想強調的重點自然不同,那么“citizen”和“american”兩詞的使用頻率有什么變化?有關研究人員對其進行了一種可視化呈現。
同樣,也可用它對中文文本進行研究,例如,某些特定的人名在作家魯迅的文本中的分布狀況如何呢?筆者采用python中的nltk模塊繪制了如下分布圖。
眾所周知,魯迅先生自己的求學讀書階段,受章太炎、梁啟超、托爾斯泰等影響深遠,之后與梁實秋、林語堂發生過學術爭論。不過,胡適成了分布最廣泛的人名。
“Gephi”是一款進行網絡分析的軟件,自復雜科學成為學術熱點,復雜網絡圖譜的繪制成為諸多學科中的必備技能,如傳染病網絡、神經網絡、金融網絡、物流網絡等。而“Gephi”可以應用于文學內部研究領域,繪制一部作品內部的語言網絡。例如,通過對魯迅作品中形容詞進行統計分析,可以發現其內部語言網絡。
不過,目前這些軟件大部分集中于英文處理,基于相對完備的英文語料庫,同樣也基于西方世界,尤其是美國在計算機科學方面的領軍地位,和西方世界人文社科學界的前沿視角。而中文語料庫以及建立在其之上的研究板塊,呈現出一種缺失。近些年,作家走走的團隊已經致力于開發中文文本分析的軟件,對文學雜志《收獲》中的文學作品和網絡文學進行分析,并取得了可觀的成果。不過,更值得期待的是這一領域的成果日益豐富,觀點百花齊放,為傳統文學史與文論研究提供了另一種參照。
類似的中文文學文本分析工具還有待豐富。不過,如今自然語言處理技術的發展,人工智能的發展,以及通用人工智能(AGI)的暢想,為這種豐富提供了一種可能,筆者對這樣的一款文學通用軟件做出如下暢想——
首先,它能夠進行基本的詞頻分析,和建立在詞頻以及權重分析上的詞語分布研究,通過它,我們可以發現不同作家和不同時代的文本差異。例如,20世紀20年代中國文學的高頻詞是哪些?與30年代有何不同?京派文學與海派文學可以通過這種方式得到量化的區分嗎?唐宋之爭中的唐詩宋詞,是否存在文本關鍵詞分布的明顯差異?
其次,建立不同的詞典庫,針對不同詞性的分布進行具體分析,這些包含基本的動詞、形容詞、名詞等,也可以通過專門詞典的建立,分析某一類(如文論類,哲學類詞)的分布。例如,魯迅先生最愛用哪些動詞?美學家朱光潛最喜愛引用哪些人名?當代文學理論和文學史類教材里哪些概念出現頻率最高?這些都是饒有趣味的文體。
再次,通過基于lstm原理和tensorflow的操作方式,通過情感計算來探索文本的情感分布奧秘,發現文本的情感曲線和走勢圖,窺探不同作家的情緒世界,不同批評家的情感風格,以及某一時代的讀者群落的精神風貌。韓愈散文的情感走向與南朝駢文有何不同?網絡玄幻小說的情感走向較之傳統武俠小說有何變化?
最后,在目前技術達不到的一些方面,還可做出更豐富的暢想——一款未來軟件,或未來編程語言的模塊,也能總結敘事類型,比較文本語言差異等,讓傳統學者的文學分析功力更有效地施展,讓計算機的研究結果和批評家的研究成果可以達成互為補充的效果。
那么,能否實現一個未來的中文文學研究軟件呢?它的可行性和可能性邊界在何方呢?事實上,除了技術的進步,它還需要有龐大的文學語料庫資源,包含紙質文學與網絡文學作品,包含紙質出版物的文學評論與網友評論,在這一方面,紙質文本高準確率的數字化處理需要完成,版權也成為了某種限制。也許,全知全能型的研究軟件短期還不能實現,或許我們也不期待它出現。而且,在重新審視中國文學與文論變遷上,輔助性較強的軟件絕對可以發揮非常重要的作用。較之于莫萊蒂的遠讀法,新的細讀法仍有其價值,不過它是一種新的細讀法,不妨稱之為數字細讀法或量化細讀法,這樣的讀法在國內剛剛起步,這樣的數據庫等待建立,而這樣一款研究軟件則充滿誘惑。