人工智能助力《儒藏》數字化整理
動動鼠標,即可隨時瀏覽查閱古代儒家思想的“大百科全書”。新中國成立以來最大規模的儒學典籍整理項目《儒藏》近日啟動數字化。北京大學表示,《儒藏》“精華編”編纂工作已收官,在全本編纂工作開展同時,專業人員將利用人工智能技術,通過“識典古籍”智能整理平臺,開展古籍數字化整理工作。目前,《永樂大典》等超1萬部古籍已在平臺上線。
因為人工智能的加入,此次古籍數字化的速度將提升。整理者把相關文獻的影像上傳至平臺,人工智能會先進行初步整理,標注出不確定的部分,專業人員再進行校對。北京大學數字人文研究中心副主任楊浩說:“專家不再需要花費大量時間用于機械枯燥的校勘異同,更多的精力可以集中在關鍵環節上,比如對重點或存在爭議的標點、詞句等做出更有深度的學術判斷。”
“識典古籍”平臺還開發了協作整理功能,支持以團隊的形式開展工作,節省了溝通成本。目前,該平臺部分功能已開放,《永樂大典》等超1萬部古籍上線,提供圖文對照、分詞檢索、實體百科等服務。
根據規劃,《儒藏》工程先編“精華編”,再編全本。“精華編”收錄了中、日、韓、越四國歷史上最具影響力和代表性的儒學文獻,有將近半數是首次校點整理,填補了學術空白。為確保整理文本的可靠性,專家廣泛參考各種古籍目錄,走訪各大圖書館搜集海內外館藏善本,于2022年整理完成并出版了《儒藏》“精華編”中國部分510種、282冊,總字數近2億字。《儒藏》全本編纂工作已啟動。包括“精華編”在內,中國部分計劃收書3000余種,約10億字,將基本囊括我國歷史上有價值的儒學文獻。
“識典古籍”平臺是北大于2022年牽頭推出的古籍數字化平臺,已具備版式識別、自動標點、結構整理、校勘等涉及古籍整理的全流程功能,能助力專家和機構提高古籍整理效率。