10分鐘校對(duì)40萬(wàn)字,《大辭海》AI審校還有哪些強(qiáng)項(xiàng)?
AI在各領(lǐng)域嶄露頭角之時(shí),《大辭海》也加入其中,推出AI審校系統(tǒng)。3月25日,上海辭書出版社與百度、鯨湯(上海)智能科技有限公司在滬正式發(fā)布最新產(chǎn)品“辭文智能知識(shí)審校系統(tǒng)”。該產(chǎn)品是《大辭海》權(quán)威知識(shí)庫(kù)與百度文心大模型深度融合的創(chuàng)新成果,標(biāo)志著出版行業(yè)智能化轉(zhuǎn)型邁入新階段。
上海世紀(jì)出版集團(tuán)副總裁、上海辭書出版社社長(zhǎng)秦志華介紹,“辭文智能知識(shí)審校系統(tǒng)”系統(tǒng)目前可以在10分鐘之內(nèi)完成40萬(wàn)字文本量的審校,錯(cuò)誤識(shí)別準(zhǔn)確率達(dá)到80%,審校工作效率成倍提升,有效解決傳統(tǒng)文本審校在知識(shí)性、邏輯性方面的痛點(diǎn)。
國(guó)內(nèi)首個(gè)融合權(quán)威工具書資源的智能審校解決方案
作為國(guó)內(nèi)首個(gè)融合權(quán)威工具書資源的智能審校解決方案,“辭文”實(shí)現(xiàn)了四大技術(shù)突破:一是精準(zhǔn)的知識(shí)溯源能力,當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí),系統(tǒng)不僅能指出問(wèn)題所在,更能通過(guò)Agent技術(shù)精準(zhǔn)定位到《大辭海》中的相關(guān)條目,展示完整的知識(shí)鏈條,讓用戶不僅知道“錯(cuò)在哪里”,更明白“正確的應(yīng)該是什么”;二是強(qiáng)大的多輪推理能力,可深入驗(yàn)證文本多維度合理性,找出隱藏的邏輯謬誤,比如當(dāng)審核一篇關(guān)于歷史人物的文章時(shí),系統(tǒng)不僅是簡(jiǎn)單地核對(duì)年代,而是會(huì)通過(guò)多重推理,驗(yàn)證人物關(guān)系、歷史背景、事件順序等多個(gè)維度的合理性;三是動(dòng)態(tài)的知識(shí)更新機(jī)制,確保核查結(jié)果緊跟學(xué)術(shù)發(fā)展前沿,當(dāng)《大辭海》數(shù)據(jù)庫(kù)有更新時(shí),系統(tǒng)能自動(dòng)完成知識(shí)的同步;四是智能的交互式審校流程,通過(guò)有效控制大模型的發(fā)散、幻覺問(wèn)題,提供個(gè)性化的審校建議,這種人機(jī)協(xié)作的方式既保留人工審校的專業(yè)判斷,又發(fā)揮AI的效率優(yōu)勢(shì)。
與市面上現(xiàn)存智能審校系統(tǒng)相比,“辭文智能知識(shí)審校系統(tǒng)”的優(yōu)勢(shì)在于其依托的《大辭海》數(shù)據(jù)庫(kù)。
《大辭海》共收詞近30萬(wàn)條,5000多萬(wàn)字,涵蓋目前所有的一級(jí)和二級(jí)學(xué)科,是自然科學(xué)、人文社會(huì)科學(xué)、語(yǔ)言文字等學(xué)科名詞、術(shù)語(yǔ)、概念等各方面知識(shí)的集大成者。
“《大辭海》猶如為 AI配備了‘權(quán)威知識(shí)的放大鏡、顯微鏡’。”秦志華表示,在人工智能在知識(shí)審校領(lǐng)域,內(nèi)容數(shù)據(jù)的準(zhǔn)確性決定整個(gè)建筑的穩(wěn)固程度。依托《大辭海》,“辭文”智能知識(shí)審校系統(tǒng)能夠快速、準(zhǔn)確地識(shí)別各類文本中的細(xì)微知識(shí)謬誤,精確考證歷史年代、嚴(yán)格遵循術(shù)語(yǔ)規(guī)范、確保人物事實(shí)準(zhǔn)確。
實(shí)現(xiàn)從“文字糾錯(cuò)”到“知識(shí)審校”的能力跨越
近幾年,文本審校工具如雨后春筍不斷涌現(xiàn),從早期的黑馬校對(duì)、方正審校,到i校對(duì)、鳳凰智能校對(duì)系統(tǒng)、蜜度校對(duì)通、果麥AI校對(duì)王等產(chǎn)品各擅勝場(chǎng)。
“辭文”系統(tǒng)依托《大辭海》,將定位瞄準(zhǔn)“知識(shí)審校”。“2023年8月起執(zhí)行的《圖書編校質(zhì)量差錯(cuò)判定和計(jì)算方法》中規(guī)定,一般性錯(cuò)字、別字,每處計(jì)1個(gè)差錯(cuò);知識(shí)性、邏輯性差錯(cuò),每處計(jì)2個(gè)差錯(cuò),由此可見知識(shí)性、邏輯性差錯(cuò)對(duì)編校質(zhì)量管理而言極為重要。然而,隨著知識(shí)專業(yè)化分工的日益精細(xì),單個(gè)審校人員難以完全掌握跨學(xué)科知識(shí),市場(chǎng)迫切需要一套智能、高效、準(zhǔn)確的知識(shí)審校系統(tǒng)。這不僅是新聞出版機(jī)構(gòu)、內(nèi)容發(fā)布平臺(tái)的把關(guān)利器,也將是整個(gè)內(nèi)容創(chuàng)作行業(yè)的前置工具。”秦志華表示。
在這樣的背景下,上海辭書出版社很早就關(guān)注到了“智能審校”。“‘辭文智能知識(shí)審校系統(tǒng)’并不是我們一時(shí)興起趕潮流的數(shù)字產(chǎn)品。最初產(chǎn)生開發(fā)智能審校系統(tǒng)的想法,可能要追溯到2019年。”秦志華介紹,當(dāng)時(shí)上海辭書出版社正圍繞《辭海》數(shù)字出版云平臺(tái)的建設(shè),開發(fā)工具書協(xié)同編纂的子系統(tǒng),其中就包括歷史紀(jì)年、古今地名、規(guī)范漢字、引文和譯名統(tǒng)一等自動(dòng)核查功能。當(dāng)時(shí),他們就將智能審校這一知識(shí)服務(wù)方向放在了出版融合的“代辦清單”中。
2023年6月,上海辭書出版社與百度文心一言合作,正式立項(xiàng)“辭文”智能審校項(xiàng)目,后來(lái),鯨湯(上海)智能科技有限公司加入,在數(shù)據(jù)、算法、算力方面密切配合,推動(dòng)大辭典與大模型深度融合。經(jīng)過(guò)3輪外部測(cè)試,“辭文智能知識(shí)審校系統(tǒng)”正式推出,實(shí)現(xiàn)從“文字糾錯(cuò)”到“知識(shí)審校”的能力跨越。
“AI的質(zhì)量與差異主要來(lái)自于數(shù)據(jù),站在《大辭海》權(quán)威基礎(chǔ)上做出的這個(gè)智能審校產(chǎn)品,基礎(chǔ)非常好。”百度 AI 技術(shù)生態(tài)副總經(jīng)理周奇表示,大模型時(shí)代,軟件產(chǎn)品是“火的”,可以根據(jù)數(shù)據(jù)、用戶反饋和大模型本身成長(zhǎng)不斷迭代,依托文心+飛槳的核心技術(shù),百度致力于希望和硬件伙伴、技術(shù)伙伴、數(shù)據(jù)伙伴等共建生態(tài),架起技術(shù)和行業(yè)專業(yè)知識(shí)的橋梁,打通大模型垂直領(lǐng)域應(yīng)用的工程化“最后一公里”。
守護(hù)知識(shí)傳播的準(zhǔn)確性與嚴(yán)肅性
發(fā)布會(huì)上,秦志華展示了部分“辭文”應(yīng)用的案例。上海辭書出版社針對(duì)該社一部50多萬(wàn)字的關(guān)于上海歷史主題的付型稿件,采用“辭文”進(jìn)行深度檢測(cè),系統(tǒng)共標(biāo)記471處潛在錯(cuò)誤,經(jīng)專業(yè)編輯團(tuán)隊(duì)逐條復(fù)核,最終確認(rèn)采納87處知識(shí)性差錯(cuò)(含歷史事件誤記、人物關(guān)系錯(cuò)位、地理沿革錯(cuò)誤等),錯(cuò)誤類型覆蓋上海開埠史、租界制度、地方文獻(xiàn)等專業(yè)領(lǐng)域。橫向?qū)Ρ葴y(cè)試數(shù)據(jù)顯示,“辭文”系統(tǒng)檢出471處,確認(rèn)采納87處;市場(chǎng)上另一審校產(chǎn)品檢出262處,確認(rèn)采納0處。
《咬文嚼字》編輯部也體驗(yàn)了這一產(chǎn)品。上海咬文嚼字文化傳播有限公司總經(jīng)理王敏介紹試用情況,通過(guò)對(duì)一些已知錯(cuò)誤的文本進(jìn)行測(cè)試,“辭文”系統(tǒng)的修訂值得參考。例如一段文本中錯(cuò)將“多情總被無(wú)情惱”這句蘇軾的詞作寫成是“出自元好問(wèn)之手”,“辭文”系統(tǒng)第一次將其改成“并非出自元好問(wèn)之手”,第二次則直接糾錯(cuò)為“出自蘇軾之手”。
“智能校改兩次內(nèi)容不一樣,第二次修訂內(nèi)容還有進(jìn)步。”王敏認(rèn)為,在大模型助力下,通過(guò)人機(jī)協(xié)同,這一產(chǎn)品有很大潛力。
“我做新聞20多年,最怕白紙黑字印出去的知識(shí)出錯(cuò)。” 經(jīng)濟(jì)日?qǐng)?bào)社上海記者站站長(zhǎng) 李治國(guó)感慨,在做新聞報(bào)道時(shí),記者編輯面對(duì)海量信息難免有疏漏,比如歷史事件的日期、科技概念的界定等都是跨領(lǐng)域的內(nèi)容,“‘辭文’系統(tǒng)既具備AI的高效,又扎根于《大辭海》權(quán)威知識(shí)體系,能在幾秒內(nèi)完成交叉驗(yàn)證,幫助我們守住事實(shí)底線。媒體的價(jià)值在于權(quán)威性和準(zhǔn)確性,通過(guò)前沿的技術(shù),我們能提高工作效率,專注于更有創(chuàng)造性的工作。”
秦志華表示,“辭文”突破以往各類文本審校工具的局限,實(shí)現(xiàn)了從“文字糾錯(cuò)”到“知識(shí)審校”的能力跨越,但其價(jià)值更在于守護(hù)知識(shí)傳播的準(zhǔn)確性與嚴(yán)肅性。據(jù)悉,目前該產(chǎn)品已成功應(yīng)用于人文社科、科學(xué)技術(shù)等出版領(lǐng)域的文本審校,未來(lái)還將拓展至新聞傳媒、教育科研等場(chǎng)景,致力于成為內(nèi)容生產(chǎn)領(lǐng)域的“數(shù)字質(zhì)檢員”。