中評社北京6月10日電/據光明日報報導,古文字,主要指中國商代晚期至秦代使用的漢字。二十世紀30年代,殷墟發掘出大量有字甲骨,證實了商王朝的存在,重塑了世界對中國古代文明的評價。近年,抄有《老子》《詩經》等內容的戰國竹書呈井噴式湧現。可以說,古文字是解讀中華文明基因的關鍵。
古文字研究與科技發展密不可分。紅外采集、高精度掃描等技術手段極大改善了資料條件,索引、搜索引擎、數據庫,為古文字研究提供了巨大助力。如今,AI技術蓬勃發展,當通過人工智能拼綴上第一片甲骨時,實現的不僅是技術突破,更是中華文明根脈的賡續與新生。
簡單來講,“破譯”古文字可分為兩步:一是識形,二是讀詞。即先認出古文字形體是什麼字,再判定其音義,弄明白它在文獻中的含義。如,先認出甲骨中“[圖1]”是“王”,再讀懂刻辭與商王有關。人工智能輔助古文字研究,就是要模仿人類專家的學習過程,進行“記字形”和“讀古書”的訓練。
目前對計算機而言,“認字形”十分艱難。機器學習面臨著諸多挑戰,包括圖像預處理結果不佳、標注樣本稀缺、字形實情極其複雜等。其中,“數據困境”是顯性瓶頸,古文字單字量低,有效樣本密度低,機器學習樣本不足。最近,我所在的課題組參與開發了“古文字線上書寫系統”,旨在收集專家書寫古文字的動態路徑,將古文字字形轉換成有順序、有方向的矢量線段,為訓練計算機識讀字形提供學習參考。
此前計算機識圖多從像素角度入手,受圖像質量、樣本量、字形複雜性等影響,特徵提取困難,識別率低。為了破題,我們課題組轉換了思路——並非讓模型分析靜態字形,而是通過動態路徑數據,捕捉專家的書寫順序和對字形結構的理解,幫助模型像人一樣“思考”如何書寫古文字。我們希望通過提取人類書寫古文字的動態特徵,將人的經驗轉換成可訓練的數據規則,從而彌補傳統方法在異體字處理上的缺陷,解決數據量不足等問題。
目前,我們的研究已進入初步試驗階段,錄入了12825條字形書寫數據進行前期測驗。眼下正在搭建機器學習的模型,相關代碼達到萬餘行,計算機累計運行時間超過400小時,模型迭代3個版本。從生成結果看已初見成效,計算機能成功模仿人類書寫的筆勢、筆順和大致輪廓,但在部件書寫的準確性、筆畫組合和構件位置關係上,仍有很大的進步空間。
例如甲骨文中“千”字有一類形體作“[圖2]”形,是在側視站立人形“[圖3]”的基礎上,在其腿部加一橫筆分化而來,其書寫順序一般是先寫出側視身體軀幹和手臂,再寫後加的一橫筆: |