午夜三级中文不卡电影,天天干天天操天天换,青青草私拍在线

只要鍵入一個(gè)關(guān)鍵詞就能搜索到相關(guān)古籍文本，晦澀難懂的古文被加上了標(biāo)點(diǎn)和人名、地名等注釋……數(shù)字化技術(shù)正在“喚醒”古籍，讓它們來到更多人的眼前。近日，“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測試版正式上線，應(yīng)用了AI(人工智能)模型、分詞檢索技術(shù)等，向公眾免費(fèi)開放390部經(jīng)典古籍。

AI提速古籍整理

過去，古籍的數(shù)字化整理主要依賴人力。國家圖書館副館長、國家古籍保護(hù)中心副主任張志清說，“在古籍修復(fù)領(lǐng)域，‘一萬個(gè)小時(shí)’恐怕出不來一個(gè)熟手，‘兩萬個(gè)小時(shí)’也未必能造就一個(gè)大師。”據(jù)統(tǒng)計(jì)，全國各高校、社會(huì)層面從事古典文獻(xiàn)專業(yè)研究的人才不足1萬人。

蓬勃發(fā)展的人工智能技術(shù)正在給古籍整理提速。“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”產(chǎn)品負(fù)責(zé)人隨手打開《論語集解》(何晏編寫)中的一張影像版，只見里面不僅存在著生僻字、異體字，文字排版也相對(duì)混亂，在《論語》原文的豎行大字后，還穿插排布著豎行小字，是后人對(duì)論語的注解。不僅如此，在這頁書左下角，還印有兩個(gè)印章，覆蓋在原文上。

這樣復(fù)雜的文本如何精準(zhǔn)識(shí)別?依靠的就是“看圖識(shí)字”，即COR文本識(shí)別技術(shù)。上述負(fù)責(zé)人介紹，首先要給人工智能模型“喂數(shù)據(jù)”，即用大量數(shù)據(jù)讓它學(xué)習(xí)古文用詞、行文順序、表達(dá)方式等。當(dāng)模型具有一定的“古文功底”后，會(huì)依次進(jìn)行單個(gè)切分、文字識(shí)別、順序識(shí)別。

在文字識(shí)別基礎(chǔ)上，技術(shù)團(tuán)隊(duì)還在嘗試更進(jìn)一步。例如，給行文添加標(biāo)點(diǎn)，對(duì)人名、地名、書籍、時(shí)間、官職等進(jìn)行標(biāo)注。目前，AI已可以支持逗號(hào)、句號(hào)、問號(hào)、感嘆號(hào)、頓號(hào)、冒號(hào)、分號(hào)等7種標(biāo)點(diǎn)的添加，準(zhǔn)確率達(dá)到96%至97%。

查找引入分詞檢索

除了運(yùn)用AI技術(shù)整理古籍，智能搜索技術(shù)也在古籍?dāng)?shù)字化中“一展拳腳”。

上述負(fù)責(zé)人鍵入“學(xué)而時(shí)習(xí)之”做了一個(gè)簡單演示，只見搜索到的內(nèi)容有300余條，展示在最前面的是精準(zhǔn)包含“學(xué)而時(shí)習(xí)之”這句話的古文內(nèi)容，后面還有包括“學(xué)之”“時(shí)習(xí)之”“習(xí)之”等詞的古文內(nèi)容。

“好的搜索技術(shù)即便不是非常精準(zhǔn)地輸入了一個(gè)詞或者一句話，也能搜索出我們大致想要的內(nèi)容。這是因?yàn)椴捎昧朔衷~搜索技術(shù)。”這位負(fù)責(zé)人解釋，分詞搜索技術(shù)已經(jīng)比較成熟，但應(yīng)用到古籍檢索中，一個(gè)難點(diǎn)是要學(xué)會(huì)古文用詞，這樣才能準(zhǔn)確地進(jìn)行分詞。不僅如此，在給一句話分詞后，還需要為每個(gè)詞設(shè)置不同權(quán)重。比如，“學(xué)而時(shí)習(xí)之”的“之”，在古文里很常見，所以權(quán)重較低，但“學(xué)之”“習(xí)之”的內(nèi)容會(huì)在更靠前展示。

有些古籍廣為人知的名字，可能并不是它的本名。比如人們常說的《詩經(jīng)》，本名其實(shí)叫《毛詩》。在搜索設(shè)置中，要做到用戶搜索《詩經(jīng)》或者《毛詩》，都能顯示出這本書。

還有更大“活化”空間

目前，“識(shí)典古籍”平臺(tái)已上線390部經(jīng)典古籍，共計(jì)3000多萬字，未來還計(jì)劃完成一萬種古籍的智能化整理，并開發(fā)手機(jī)版本，供公眾上傳古籍進(jìn)行智能化整理等。

古籍“活化”還有著更大的想象空間。因?yàn)闅v史原因，我國一些古籍、畫作等流落海外，出現(xiàn)了“史在他邦、文歸海外”的遺憾，古籍的數(shù)字化回歸成為一種更實(shí)際的解決方案。例如，2021年，阿里巴巴公益基金會(huì)、中國國家圖書館等合作開展的“漢典重光”項(xiàng)目，曾幫助一批收藏于美國加州大學(xué)伯克利分校的中文古籍善本，以數(shù)字化方式回歸故土，首批20萬頁、3萬多字的古籍已完成數(shù)字化。

“如何能讓習(xí)慣了刷手機(jī)的用戶也能愛上晦澀難懂的古籍文獻(xiàn)?”這是北京大學(xué)數(shù)字人文研究中心主任王軍對(duì)古籍?dāng)?shù)字化更深度的思考。“智能化整理只是第一步，更要去重新詮釋。不是一字一句的翻譯，而是與當(dāng)代人生活結(jié)合在一起，為當(dāng)代人精神提供養(yǎng)料。”(趙語涵)

關(guān)鍵詞：數(shù)字化技術(shù)正在喚醒古籍 AI提速古籍整理智能搜索技術(shù) 古籍?dāng)?shù)字化平臺(tái)識(shí)典古籍測試版正式上線