一直以來,古籍?dāng)?shù)字化整理面臨著技術(shù)、資金等方面的諸多困難,導(dǎo)致數(shù)字化進展緩慢,或使用體驗不佳等。為解決這些難題,2022年3月,字節(jié)跳動公司與北京大學(xué)開展合作,以“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”為研發(fā)基地,打造“識典古籍”數(shù)字化平臺。這是一個非營利性公益平臺,通過OCR(光學(xué)字符識別)、句讀、實體識別、知識圖譜構(gòu)建等方面的多種技術(shù),實現(xiàn)古籍的智能化整理,讓古籍能夠以文本的形態(tài)加以檢索、關(guān)聯(lián)閱讀和深度挖掘、利用。 “識典古籍”數(shù)字化平臺于2022年10月開始向公眾免費開放,截至今年4月24日,已上線4100部經(jīng)典古籍。該平臺產(chǎn)品相關(guān)負(fù)責(zé)人近日告訴記者,平臺未來將陸續(xù)完成1萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄。 技術(shù)賦能,古籍?dāng)?shù)字化開新篇 古籍?dāng)?shù)字化的作用是活化,要讓越來越多的人了解與使用古籍。但古籍?dāng)?shù)字化并非易事,如果按照傳統(tǒng)方式解決古籍?dāng)?shù)字化過程中大量異體字、生僻字、標(biāo)點、閱讀順序等問題,相關(guān)單位需要一本本、一頁頁進行人工掃描、校對,會耗費大量人力、物力,這成為古籍?dāng)?shù)字化的攔路虎。在這種背景下,具有很多互聯(lián)網(wǎng)和人工智能技術(shù)經(jīng)驗的字節(jié)跳動,開始思索如何用技術(shù)為古籍?dāng)?shù)字化賦能。 作為一家以內(nèi)容為主的公司,字節(jié)跳動在內(nèi)容識別、內(nèi)容檢索等方面的技術(shù)上擁有天然的優(yōu)勢,而這也反映在古籍?dāng)?shù)字化方面。字節(jié)跳動相關(guān)負(fù)責(zé)人告訴記者,“識典古籍”數(shù)字化平臺解決了古籍?dāng)?shù)字化的兩大難題:古籍掃描準(zhǔn)確率以及轉(zhuǎn)換效率較低。目前行業(yè)內(nèi)OCR的識別準(zhǔn)確率平均為93%—94%,而“識典古籍”數(shù)字化平臺將這個數(shù)字提高到96%—97%。 由于古籍沒有標(biāo)點符號,因此以往需要人工添加標(biāo)點符號。而“識典古籍”數(shù)字化平臺通過算法,給原本缺少斷句的古籍自動打上標(biāo)點符號。此外,為了進一步提升文字識別的精準(zhǔn)度,命名實體識別技術(shù)會通過預(yù)測文字的實體標(biāo)簽,識別包括人名、地名、書籍、時間、官職在內(nèi)的5種類型的專有名詞。 該相關(guān)負(fù)責(zé)人表示,除了應(yīng)用于古籍閱讀之外,“識典古籍”數(shù)字化平臺還將致力于提高古籍智能整理的能力,通過提供開放、一站式的古籍智能化整理工具,吸引更多收藏家自主上傳古籍資源?!拔覀儾粩鄡?yōu)化OCR等算法,支撐不同樣式和掃描條件的古籍,借助飛書編輯器框架,打造體驗良好、協(xié)作性強的校對、校勘體驗,簡單培訓(xùn)后普通人也能上手。對于愿意將整理后的古籍通過‘識典古籍’開放給大眾閱讀的機構(gòu),可以免費使用‘識典古籍’的整理平臺及其智能技術(shù)。” 古籍活化,建立可打通知識圖譜 把古籍的文字從紙張油墨轉(zhuǎn)變?yōu)閿?shù)字化的“1、0”,并不是古籍活化的關(guān)鍵。古籍活化就是要把古籍里面蘊含的信息文化知識活化,讓年輕讀者了解古籍蘊含的文化知識,而“識典古籍”數(shù)字化平臺的知識圖譜化整理在這方面發(fā)揮了重大作用。 據(jù)了解,使用者可以根據(jù)自己的需求進行關(guān)鍵詞檢索,快速找到所需信息;還可以根據(jù)實體(時代、人物、地點等)作整體性分析和關(guān)聯(lián)檢索,讓分散在同一本古籍不同位置,或不同古籍的相關(guān)知識快速、全面聚合,打造一個完善的知識圖譜。 “這相當(dāng)于搭建了一座古籍智能化數(shù)字圖書館,讓研究者找資料時,不再需要一本本書查找、一頁頁翻閱。比如用戶檢索‘道義’,就可以了解該概念起源于哪個朝代的哪本典籍,以及它在各種書籍中的出現(xiàn)情況,從而快速推動相關(guān)研究,這對傳統(tǒng)文化研究具有重要意義。”字節(jié)跳動相關(guān)負(fù)責(zé)人表示。 知識圖譜的作用遠不止如此。據(jù)悉,“識典古籍”數(shù)字化平臺還可以在專有名詞基礎(chǔ)上識別這些專有名詞之間的關(guān)系,把人名、地名、官名、書名都識別出來,并試圖提取人、地和官職之間的關(guān)系,轉(zhuǎn)化成圖譜形態(tài),再與百科、各種問答應(yīng)用、旅游產(chǎn)品等聯(lián)系在一起,實現(xiàn)全方位的數(shù)字化賦能。 據(jù)了解,字節(jié)跳動向全社會開放古籍閱讀檢索研究權(quán)限,任何人都可以通過平臺搭建自己的古籍知識圖譜。他們無需親自翻閱多本書籍,就可以獲取完整的詞義,節(jié)省了研究者和讀者的時間。 開放合作,宣傳讓古籍“火”起來 讓古籍“活”起來只是第一步,還要讓古籍“火”起來。字節(jié)跳動相關(guān)負(fù)責(zé)人表示,“識典古籍”數(shù)字化平臺的一個重要功能就是古籍活化傳承,通過古籍?dāng)?shù)字化提供更多的延展內(nèi)容和趣味玩法。 據(jù)了解,“識典古籍”數(shù)字化平臺上線了電腦網(wǎng)頁版以及手機移動版,用戶在此可以實現(xiàn)分詞檢索、圖文對照、繁簡轉(zhuǎn)換、字典釋義、文白對照、實體百科等功能。同時,今日頭條還專門開放古籍平臺,展示平臺成果。截至今年4月24日,已經(jīng)累計有超過6231萬人次通過今日頭條古籍頻道、網(wǎng)頁版等了解和閱讀古籍。 在古籍?dāng)?shù)字化的基礎(chǔ)上,字節(jié)跳動公益還聯(lián)合中國文物保護基金會、中國國家圖書館發(fā)起“尋找古籍守護人”活動,招募創(chuàng)作者,通過抖音、西瓜視頻、今日頭條等平臺,創(chuàng)作相關(guān)內(nèi)容,推動古籍活化,助力傳統(tǒng)文化傳承;此外,還推出古籍活化紀(jì)錄片《穿越時空的古籍》、VR互動紀(jì)錄片《古籍尋游記》,以及系列古籍公開課等,整理古籍活化成果。一整套組合拳下來,成效斐然。 其中,“尋找古籍守護人”活動約有7萬名創(chuàng)作者參與,視頻累計播放量24億次;古籍公開課共發(fā)布25期公開課,25位名師開講,涵蓋“識典古籍”數(shù)字化平臺上20余部古籍,觀看量超過9600萬次?!艾F(xiàn)在我們以多元形式傳播古籍知識,受到了行業(yè)的關(guān)注和認(rèn)可,特別是受到年輕人的喜愛。這給予我們信心,因為古籍的傳承在年輕人,古籍‘活’化和‘火’起來的種子,也要靠他們播撒?!弊止?jié)跳動相關(guān)負(fù)責(zé)人說道。 |