只要鍵入一個(gè)關(guān)鍵詞就能搜索到相關(guān)古籍文本,晦澀難懂的古文被加上了標(biāo)點(diǎn)和人名、地名等注釋……數(shù)字化技術(shù)正在“喚醒”古籍,讓它們來到更多人的眼前。近日,“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測試版正式上線,應(yīng)用了AI(人工智能)模型、分詞檢索技術(shù)等,向公眾免費(fèi)開放390部經(jīng)典古籍。
AI提速古籍整理
過去,古籍的數(shù)字化整理主要依賴人力。國家圖書館副館長、國家古籍保護(hù)中心副主任張志清說,“在古籍修復(fù)領(lǐng)域,‘一萬個(gè)小時(shí)’恐怕出不來一個(gè)熟手,‘兩萬個(gè)小時(shí)’也未必能造就一個(gè)大師。”據(jù)統(tǒng)計(jì),全國各高校、社會(huì)層面從事古典文獻(xiàn)專業(yè)研究的人才不足1萬人。
蓬勃發(fā)展的人工智能技術(shù)正在給古籍整理提速。“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”產(chǎn)品負(fù)責(zé)人隨手打開《論語集解》(何晏編寫)中的一張影像版,只見里面不僅存在著生僻字、異體字,文字排版也相對(duì)混亂,在《論語》原文的豎行大字后,還穿插排布著豎行小字,是后人對(duì)論語的注解。不僅如此,在這頁書左下角,還印有兩個(gè)印章,覆蓋在原文上。
這樣復(fù)雜的文本如何精準(zhǔn)識(shí)別?依靠的就是“看圖識(shí)字”,即COR文本識(shí)別技術(shù)。上述負(fù)責(zé)人介紹,首先要給人工智能模型“喂數(shù)據(jù)”,即用大量數(shù)據(jù)讓它學(xué)習(xí)古文用詞、行文順序、表達(dá)方式等。當(dāng)模型具有一定的“古文功底”后,會(huì)依次進(jìn)行單個(gè)切分、文字識(shí)別、順序識(shí)別。
在文字識(shí)別基礎(chǔ)上,技術(shù)團(tuán)隊(duì)還在嘗試更進(jìn)一步。例如,給行文添加標(biāo)點(diǎn),對(duì)人名、地名、書籍、時(shí)間、官職等進(jìn)行標(biāo)注。目前,AI已可以支持逗號(hào)、句號(hào)、問號(hào)、感嘆號(hào)、頓號(hào)、冒號(hào)、分號(hào)等7種標(biāo)點(diǎn)的添加,準(zhǔn)確率達(dá)到96%至97%。
查找引入分詞檢索
除了運(yùn)用AI技術(shù)整理古籍,智能搜索技術(shù)也在古籍?dāng)?shù)字化中“一展拳腳”。
上述負(fù)責(zé)人鍵入“學(xué)而時(shí)習(xí)之”做了一個(gè)簡單演示,只見搜索到的內(nèi)容有300余條,展示在最前面的是精準(zhǔn)包含“學(xué)而時(shí)習(xí)之”這句話的古文內(nèi)容,后面還有包括“學(xué)之”“時(shí)習(xí)之”“習(xí)之”等詞的古文內(nèi)容。
“好的搜索技術(shù)即便不是非常精準(zhǔn)地輸入了一個(gè)詞或者一句話,也能搜索出我們大致想要的內(nèi)容。這是因?yàn)椴捎昧朔衷~搜索技術(shù)。”這位負(fù)責(zé)人解釋,分詞搜索技術(shù)已經(jīng)比較成熟,但應(yīng)用到古籍檢索中,一個(gè)難點(diǎn)是要學(xué)會(huì)古文用詞,這樣才能準(zhǔn)確地進(jìn)行分詞。不僅如此,在給一句話分詞后,還需要為每個(gè)詞設(shè)置不同權(quán)重。比如,“學(xué)而時(shí)習(xí)之”的“之”,在古文里很常見,所以權(quán)重較低,但“學(xué)之”“習(xí)之”的內(nèi)容會(huì)在更靠前展示。
有些古籍廣為人知的名字,可能并不是它的本名。比如人們常說的《詩經(jīng)》,本名其實(shí)叫《毛詩》。在搜索設(shè)置中,要做到用戶搜索《詩經(jīng)》或者《毛詩》,都能顯示出這本書。
還有更大“活化”空間
目前,“識(shí)典古籍”平臺(tái)已上線390部經(jīng)典古籍,共計(jì)3000多萬字,未來還計(jì)劃完成一萬種古籍的智能化整理,并開發(fā)手機(jī)版本,供公眾上傳古籍進(jìn)行智能化整理等。
古籍“活化”還有著更大的想象空間。因?yàn)闅v史原因,我國一些古籍、畫作等流落海外,出現(xiàn)了“史在他邦、文歸海外”的遺憾,古籍的數(shù)字化回歸成為一種更實(shí)際的解決方案。例如,2021年,阿里巴巴公益基金會(huì)、中國國家圖書館等合作開展的“漢典重光”項(xiàng)目,曾幫助一批收藏于美國加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化方式回歸故土,首批20萬頁、3萬多字的古籍已完成數(shù)字化。
“如何能讓習(xí)慣了刷手機(jī)的用戶也能愛上晦澀難懂的古籍文獻(xiàn)?”這是北京大學(xué)數(shù)字人文研究中心主任王軍對(duì)古籍?dāng)?shù)字化更深度的思考。“智能化整理只是第一步,更要去重新詮釋。不是一字一句的翻譯,而是與當(dāng)代人生活結(jié)合在一起,為當(dāng)代人精神提供養(yǎng)料。”(趙語涵)
關(guān)鍵詞: 數(shù)字化技術(shù)正在喚醒古籍 AI提速古籍整理 智能搜索技術(shù) 古籍?dāng)?shù)字化平臺(tái)識(shí)典古籍測試版正式上線