中國海外古籍“數字化回歸”項目“漢典重光”平臺18日下午在北京中國科技館正式發布,通過先進的人工智能(AI)技術,一批珍藏于美國加州大學伯克利分校的中文古籍善本,以數字化方式回歸故土,落地“漢典重光”古籍平臺。
“漢典重光”平臺稱,首批20萬葉古籍已完成數字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過該平臺翻閱、檢索古籍,這20萬葉古籍的識別準確率達到97.5%。
“漢典重光”項目由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展,旨在尋覓流散海外的中國古籍并將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話,與優秀傳統文化對話。
2019年,阿里巴巴和四川大學提出“數字化回歸”設想,獲得中文藏書量排名全美第三的加州大學伯克利分校支持并達成共識,將伯克利東亞圖書館的中文古籍善本逐步數字化。
本次首批數字化的20萬葉古籍中,包含40余種珍貴宋元刻本、寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業堂、密韻樓的抄本,還有清文瀾閣《四庫全書》零本等。
為將伯克利提供古籍的掃描圖片和編目數據全部文字化,阿里巴巴達摩院技術團隊與四川大學專家聯手研發出一套全新的古籍識別系統,以97.5%的準確率完成對20萬葉古籍的整體識別。目前,該系統已能批量識別百本古籍,并沉淀覆蓋3萬多字的古籍字典。
比起專家錄入,這套人機交互的識別系統將效率提升近30倍。隨著古籍識別規模的擴增,機器還會自我進化,不斷提升準確率和效率。阿里巴巴達摩院院長張建鋒表示,阿里計劃將這套技術工具連同古籍數字化平臺一并捐贈,交由權威公共機構長期運營,同時,阿里仍將在古籍數字化工作上持續投入人力物力。
據了解,因邦交、貿易、戰亂等,歷史上中國古籍時有出海,近代以來,戰爭和動蕩更加劇了古籍的損毀和流散。據不完全估計,散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數民族文獻等。