數字中文建設在行動
為落實《教育強國建設規劃綱要(2024—2035年)》,教育部、國家語委、中央網信辦近日共同印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(以下簡稱《意見》),部署應用關鍵新技術,構建資源數據新體系,實施賦能全局新行動,全力服務教育強國、科技強國和文化強國建設。
3月31日,教育部召開新聞發布會,介紹推進語言文字信息化發展情況。
明確兩步發展階段
《意見》提出,加強數字中文建設的理念、政策、行動和項目,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字信息化發展的突出重點,全方位釋放語言文字在經濟社會發展中的數據要素價值,著力推進中文數字化與數據中文化,著力推進創新應用與規范安全,著力推進新型中文服務體系構建與語言文字治理體系完善。
《意見》明確兩步發展階段:第一步到2027年,是以數字中文建設為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規范標準、前沿語言技術、優質語言資源、新型語言服務等基礎支撐能力顯著增強;第二步面向2035年,是全面推進語言文字信息化發展的深化賦能階段,推動承載中華文化的中文在全球數字空間、網絡空間以及生成式人工智能等關鍵場景中的使用占比和價值引領作用顯著提高,實現我國語言文字信息化整體水平位居世界前列。
教育部語言文字信息管理司司長劉培俊介紹,重點加強數字中文建設主要有以下考慮:一是中文使命任務重大——今后一個時期,中文服務數字中國建設,加大國家通用語言文字推廣力度,深化中華優秀語言文化傳承,增進語言文明國際交流互鑒等多項重大任務,更加需要中文數字化賦能。二是中文文化內涵豐富——中文承載著中華民族數千年的文明智慧,是中國貢獻給世界的重要公共文化產品,更加需要中文數字化傳播。三是中文使用范圍廣泛——中文是世界上使用人數最多的語言,是聯合國六種工作語言之一,190多個國家和地區開展中文教學,85個國家將中文納入國家的教育體系,更加需要中文數字化學習。四是中文數據價值突出——大規模、高質量的中文數據有利于推動中國特色大語言模型創新發展,更加需要中文數字化支撐。
從“信息載體”向“生產要素”轉型
當前,大語言模型技術對大規模高質量語料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務。北京大學王選計算機研究所所長湯幟認為,加強數字中文建設將從三個維度推動中文信息處理技術發展進入新階段。
一是從重要資源轉化為數據要素價值。語言文字將從“靜態符號”向“動態數字資產”、從“信息載體”向“生產要素”轉型,要重點推動語料庫、數據標注與評價等標準的研制,支持文本生成與理解、語言翻譯、情感分析等。
二是從廣泛存在聚焦到關鍵領域應用。語言文字“日學而不察、日用而不覺”,廣泛存在于社會生產各個方面。新形勢下,語言文字將實現從符號存儲到智能建模的質變,要聚焦關鍵垂直領域建設語料基礎設施,構建支持大模型訓練的高質量中文數據集。
三是從基礎支撐提高到賦能全局發展。語言文字信息處理技術創新應用正經歷從“GB2312字符集”到“萬億參數大語言模型”的范式變革。語言文字將實現與信息技術的深度融合,要形成“技術突破—場景落地—生態繁榮”的良性循環,打造數字化引領品牌,有力服務教育發展、助力科技創新、賦能文化傳承、推動產業升級、促進社會進步。
建設高質量的語言文化語料資源
語料庫是加強數字中文建設、推進語言文字信息化發展、推動語言文字高質量發展的基礎支撐,也是經濟社會信息化建設、數字化賦能和智能化發展的基礎要素。
然而當前,在語言的教育教學和研究領域,雖然有多個語料庫,但很多語料庫還處于單一文本模式和領域應用階段,在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智能相結合的大規模應用方面還存在不足,難以滿足多元化、動態化尤其是智能化的語言數據需求。
對此,《意見》提出,到2027年初步建成國家關鍵語料庫。劉培俊介紹,啟動實施國家關鍵領域語料庫建設計劃,在關鍵學科、重點行業、戰略區域、民生期待和社會急需領域,分批建設規范、安全、優質的國家關鍵語料庫。目前,教育部、國家語委已經支持建設了30余項關鍵領域的語料庫。
據介紹,國家關鍵領域語料庫建設立足人工智能時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規范、可信、高質量的語言文化語料資源。