社科網首頁|客戶端|官方微博|報刊投稿|郵箱 中國社會科學網

中國文學網

古籍整理中數字化技術的應用實踐與展望

楊賢林

  1 古籍資源整理現狀及特點 

  古籍文獻是我國歷代保存下來的歷史文化瑰寶, 它既反映了我國在人類社會發展進程中的歷史地位和作用, 也是研究我國歷代社會政治、經濟、軍事、科技、文化、外交以及社會發展變化等方面的最重要的原始材料。古籍資源的主要特點表現在以下幾個方面:首先, 現存古籍中原稿數量非常有限, 只有少量明朝著作、清朝著作還存有原稿, 而明朝以前的所有古籍原稿均不復所見, 所以大多數古籍無法應用現代技術進行排印、校對, 只能通過專業的古籍整理技術按照既定的工序進行整理、出版;其次, 古籍資源存在諸多錯漏問題, 得以流傳至今的古籍多為刻本或傳抄本, 所謂刻本即采用雕版印刷而成的書籍, 還有一些為活字印刷的版本, 但不管是刻本還是活字本, 其文字上均有諸多錯漏, 而抄本中的錯誤則更多;最后, 流傳至今的古籍多數均不只一種版本, 不同版本的內容可能存在出入。 

    

  2 古籍整理中應用數字化技術的可行性 

  盡管古籍整理所屬的歷史學和應用計算機所需的計算機專業分屬兩個不同性質的學科, 表面看上去毫無聯系, 但其實二者的深層思維方式有著諸多共同點。比如歷史學研究過程中要求研究者具備較強的邏輯推理能力、抽象思維、歸納能力, 同樣這也是計算機學科的基本思維模式;而且研究方法與計算機科學解決問題的方法在很大程度上具有相似性。因此現階段在古籍整理過程中應用比較成熟的數字化技術已經有很多種, 常見的包括以下幾種:首先是電子錄入, 即利用某種方法或工具把古籍內容輸入計算機中, 現階段出版界傳統的鉛字排版技術已經完全被電子錄入所取代, 而電子錄入的主要內容包括文字、圖像、圖文混合等。其次, 電子校勘, 利用計算機可以將所有校對對象的全文在瞬間查遍, 然后根據程序設定好的規則將文獻中的錯誤、疑問之處做出迅速定位, 可以精確到卷、節、行、字, 這樣的工作效率是令人工校勘難以企及的;而軟件聯機無紙校對則是電子校勘技術中應用最廣泛的手段, 該方法是基于計算機顯示器進行無紙校對, 并且在校對過程中可以將同一古籍多種不同版本的圖文比較及文文比較。再次, 電子統計, 該技術在現代文獻計量學中的地位十分重要, 而在古籍數字化整理過程中, 主要利用電子統計技術進行字頻分析, 不過近年來又開發出一種新技術, 即定量分析。最后, 古籍整理中, 類書、家譜、方志等是比較特殊的資源, 而將這類資源進行數字化處理意義重大。比如建立類書資源數據庫可以將豐富、系統的數據優勢充分發揮出來;電子家譜則把常見的文字符號、視頻符號等轉換為數字符號, 再制成家譜數據庫, 將家譜中相關信息資源通過數字化的形式保存起來, 并加以利用等。 

    

  3 古籍整理中數字化技術的具體應用 

  3.1 利用文本挖掘技術實現古籍的深度分析 

  文本挖掘是數字挖掘技術的一個新興分支, 其從大量文本集合、語料庫中抽取知識團, 這些知識團事先未知但可理解, 且有潛在實用價值, 即文本數據庫中的知識發現。文本挖掘技術主要應用于古籍作品的篇章分析, 比如情感關系、人物關系等, 通過一系列分析對古代文學作品做更深層次的研究。現階段古籍的文本數字化水平已經比較成熟, 后續將向著文本的深度分析方向發展。傳統研究古代文學作品的方法對研究者的專業素質要求較高, 且需要占有大量文本, 因此很長一段時期內該領域對權威及第一手文獻的依賴性過高。但利用數字化技術可以徹底改變這一現狀。利用文本挖掘技術可以基于整體的角度分析海量古籍文獻, 從而針對某個時代、某個風格流派及某個作者進行整體研究。比如史籍類古籍, 其篇幅浩大且有著復雜的人物關系, 可以利用文本挖掘技術分析同類史籍作品, 從而還原一個更加準確的歷史真相, 對歷史人物之間的復雜關系進行梳理。 

    

  3.2 利用GIS技術構建古籍數字地圖資源共享平臺 

  GIS系統即地理信息系統, 其應用于圖書館中可以為圖書館數字資源提供一種全新的檢索方法及入口, 基于GIS技術的古籍數字化地圖資源共享平臺, 可以體現出地圖的視覺化效果, 并具備地理分析功能, 通過信息劃分方式與數字圖書館有機結合起來, 不僅可以獲得時間、空間方面的直觀檢索集, 而且還可以最大程度上彌補文本檢索的不足之處。不過目前我國數字圖書館領域應用GIS技術還不夠成熟, 國外及我國港臺地區有較多的成功案例, 比如中國臺灣中央研究院開發的中國歷史文化地圖系統, 其空間范圍選擇整個中國, 時間范圍包括原始社會到現在社會的整個中國歷史, 以中國文明為內涵, 實現系統應用環境的整合性。 

    

  與現階段靜態的古籍數字化技術不同, 基于GIS的古籍數字化地圖資源共享平臺最大的特點即是其動態性, 它利用圖表化、可視化、集成化、數字化的表達方式將古籍文獻紙質史料呈現出來, 系統具備數據統計、文獻檢索及自動生成地圖等功能, 可以通過平臺檢索文學家的生平及作品, 對其分類、統計, 還可以將統計結果通過電子地圖的形式展示出來。電子地圖中可以將某個作家的生卒地點、活動地點、寫作作品背景地、跟哪些歷史名人交游互動的地點等全部顯示出來, 并以時間發生順序將其行蹤路線圖自動繪制出來。 

    

  3.3 利用文本可視化技術構建古籍數字化知識體系 

  所謂文本可視化技術即是在分析文本資源的基礎上, 利用計算機技術將發現的特定信息通過圖形化的方式呈現出來。文本可視化技術不僅可以將文本中的隱含內容及關系顯示出來, 而且可在最大范圍內概括海量的文本信息, 在古籍整理工作中應用該技術, 可以將古籍文本信息生動地表達出來, 并且能夠利用特定程序的算法將古籍文本資源的潛在語義聯系展示出來, 從中發現新知識。利用文本可視化技術構建古籍數字化知識體系, 可以在古籍文本信息可視化展視及可視化知識提取過程中發現抽象的數據空間中所隱藏的模式、知識圈及見解。不過現階段古籍數字化整理領域可視化技術的應用還相對較少, 僅向用戶提供最簡單的基本功能。即使應用該技術, 古籍資源的組織方式也無法將各類資源間的知識結構關聯準確、深入、全面地揭示出來, 并缺少支持用戶高效學習的知識建構功能。因此未來古籍數字化建設領域要將直觀圖形化的表達方式引入進來, 對古籍資源的整合方式、挖掘機制等做進一步完善。 

    

  利用可視化技術進行知識提取不僅使得知識的表達方式更豐富, 而且提高了知識評價活動的簡便性, 從而大大提高知識提取的效率及效果, 進而提高知識庫的知識儲存量及知識結構的質量。文獻地圖、文獻聚類圖、文獻時間分布圖及文獻內容直方圖等均是比較常用的可視化知識提取工具。此外, 在古籍數字化建設過程中, 利用可視化技術可以將古籍文獻信息的隱性知識通過顯性的方式表達出來, 還可對其內容及結構做出評價, 并根據評價結構形成顯性的知識體系存儲于知識數據庫中。古籍文獻體現出時間、空間跨度大、元數據雜亂等特點, 無法遵循通用的標準形成既定的知識體系, 而可視化知識提取技術恰恰提供了一種直觀表達、描述知識的方法, 對研究者進行古籍文獻資源的知識建構起到有力的促進作用。 

    

  3.4 利用語料庫技術實現古籍研究及整理的電子化 

  語料庫是經過電子化的、原始或添加了語言信息標記的文本集合。早在20 世紀80 年代, 我國就開始進行語料庫的建設, 當時的主要目的是用于漢語詞匯統計及研究;而在20世紀90 年代后, 隨著計算機信息技術的不斷發展, 語料庫方法在自然語言信息處理領域的應用也越來越廣泛。語料庫中包含了海量的自然語言材料, 不僅可以應用于語法、詞匯、語體等相關研究, 而且還可用于人工智能、機器翻譯及辭典編纂等其他領域。而在古籍整理領域, 語料庫的應用還處于初級階段, 僅用于字、詞頻率的統計、語法現象的歸納統計等。通過建立語料庫, 大大簡化了基于字、詞的相關統計分析過程, 從而大大提高了古代文學作品本體研究的便捷性與準確性。用戶可以通過古籍語料庫對古籍文獻進行全面理解, 并對跨時代、跨人物的相關內容做出對比, 從而保證研究結論的可靠性。在傳統古籍整理工作中, 為保證古籍的完整性與歷史性, 需要進行大量耗時、耗力的校勘工作, 而在建立古籍語料庫后, 很大程度上可以利用計算機智能技術對比語料庫中的字、詞匯及語法等來完成校勘工作, 且計算機系統具備分析功能, 可以向用戶做出可能存在的錯訛、脫落及衍生等信息提示, 從而使得利用數字化技術完成古籍整理成為可能。 

    

  4 古籍整理中數字化技術應用展望 

  雖然數字化技術為古籍整理帶來了諸多便利, 但仍然存在一些問題。因此未來一段時期內, 古籍整理領域數字化技術的應用要向著以下幾個方面發展。 

    

  4.1 制定統一規劃 

  實際上我國中文古籍數字化建設現在還缺少統一的規劃, 不管是科研機構還是商業公司, 均在進行古籍資源的數字化開發, 這無形中就造成了不必要的資源浪費。比如《四庫全書》及《二十五史》, 目前所知至少有4 種以上電子版本。古籍經過長時間的保存及流傳會形成不同的版本, 在古籍數字化開發過程中, 古籍版本的選擇會對古籍數字化版本的質量產生決定性影響, 因此要求古籍整理人員對每本書的目錄版本、優缺點有充分的了解, 才能擇優選取版本。古籍重復開發的現象不僅會導致資源浪費, 而且會影響到電子版本的質量, 并使得市場無序化的問題逐步突顯出來。因此, 未來要制定一個統一規劃, 提高資源的利用效率, 實現古籍市場的有序管理。 

    

  4.2 建立統一標準與規范 

  我國中文古籍不可計數, 開發單位也數量眾多, 現階段各單位并未就古籍數字化形成共識, 所以在數字化整理過程中出現多種互不兼容的數字化格式。比如古籍數字閱讀器, 現在常用的就有十幾種, 包括PDFPDGTXTDOC, 用戶如果需要使用不同開發者的電子版本, 就需要下載對應的格式的閱讀器, 不利于用戶的應用, 且這種做法對數據的共享發展也設置了一道障礙, 從而直接影響到古籍數字化產品的使用性能。首都師范大學電子文獻研究所的尹小林所長曾提出建設古籍數據庫的標準, 包括有確定的底本與書目提要、文字差錯率不得超出萬分之一、有互相對應的簡繁體文字、含高清版底本圖像且能縮放、具備智能化全文檢索功能、提供智能數據統計分析功能、可進行多種數據格式的轉換與輸出等。后續可參考上述要求逐步建立健全相關操作規范, 實現古籍整理的標準化。 

    

  4.3 注重品質的同時兼顧市場 

  雖然古籍數字化市場有著可觀的前景, 但是由于其開發過程中需要耗費大量的人力、技術, 涉及多種古籍資源, 因此所生產出來的數字化產品價格也比較昂貴, 對于個人用戶而言就成為一道門檻。所以現階段古籍數字化產品的應用與普及僅限于特定的區域范圍, 要實現其大眾性、通用性功能還不現實, 這對古籍數字化產品的市場開發與推廣會產生一定的制約作用。未來發展過程中, 要在保證古籍數字化產品質量的同時, 充分考慮市場因素, 采用先進的技術手段降低古籍開發成本, 實現古籍數字化產品的市場化、大眾化。 

    

  4.4 考慮版權問題 

  古籍文獻原件由于年代久遠通常不會涉及版權問題, 不過如果古籍整理項目關系到近代的校勘整理成果, 則要注意保護知識產權;并且古籍文獻資源數據庫本身也有版權, 整理過程中如果用到其他古籍數字化成果則要充分考慮版權問題。需要特別提出一點, 即一些比較珍貴的古籍文獻可以在數字化整理的同時, 再將數字資源轉換為彩色縮微膠片的形式, 以實現古籍資源的永久性存儲;雖然這種做法在一定程度上增加了古籍整理的成本, 不過對珍貴古籍資源進行異質備份可以最大程度地保護珍貴古籍原件。 

    

  參考文獻 

  [1]梁愛民, 陳荔京.古籍數字化與共建共享[J].國家圖書館學刊, 2012 (5) :108-112. 

    

  [2]喻雯虹.古籍數字化資源的共建共享——從國際敦煌項目 (IDP) 談起[J].圖書館論壇, 2011 (3) :87-89, 163. 

    

  [3]姚俊元.關于制定古籍數字化標準的思考[J].圖書館理論與實踐, 2010 (2) :50-52. 

    

  [4]申利.利用數字化資源提高古籍整理效率的實踐和思考[J].圖書情報知識, 2012 (5) :120-125. 

    

  [5]吳茗.淺析古籍數字化建設的組織模式——以哈佛燕京圖書館中文古籍數字化項目為例[J].數字圖書館論壇, 2012 (3) :42-45. 

    

  [6]欒偉平.數字化過程中的古籍保護問題——“明別集叢刊”項目的工作體會[J].大學圖書館學報, 2013 (3) :84-86, 121. 

    

  [7]徐金鑄.網絡環境下古籍數字化資源信息服務思考[J].蘭臺世界, 2012 (35) :34-35. 

    

  [8]毛建軍.中文古籍數字化合作館藏維護問題研究[J].圖書館理論與實踐, 2011 (8) :4-7. 

    

  [9]郭明俠.中文古籍數字化建設探究[J].蘭臺世界, 2011 (18) :20-21. 

tlc官网 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>