CMEX財團法人中文數位化技術推廣基金會
古漢字編碼
【 背景 】  

於ISO/IEC/SC2/WG2/IRG 第21次會議中,中國代表首次提出古漢字編碼之需求,因為在ISO 10646碼本中,收納了厤史上曾出現過的古義大利文、摩門教文字、巴斯拉文(元朝時西藏喇嘛使用之文字),由於有此先例,故希望可以比照處理。 至IRG第22次會議,達成了以下兩點關於古漢字之決議:

一、

將積極展開古漢字之編碼工作,並決議IRG大會主席於WG2 第45次會議(於本年度6月21-24日舉行)中報告此事。

二、

將於23次會議中討論編碼原則與接受個會員體需提交本國編碼規的建議案。

【 緣起 】  

漢字是世界上歷史最悠久的文字體系。其他曾經存在過的古老文字,至今早已失去了紀錄語言的功能而成為歷史陳跡,只有漢字從古代一直沿用至今。中國漢字每一個字其字形、字象、字音、字義都與中國文化緊密相關,具有不可低估、不可否認的文化價值;將四、五千年不曾間斷的中國文字的加以研究,對揭示文字的歷史及其發展規律有著特殊的意義。 在漢字的發展史上,甲骨文、金文、孔壁古文、籀文、小篆基本上是依據〝六書〞原則而成,屬於古漢字。一直以來古漢字都是研究文字學的重要根據,而欲整理、通曉古代文獻的參考資料,古漢字更是重要的工具,許多古籍的被沿傳,都是各個時代通曉文字學的大師凝聚心力而成,即使是現在,就算是有新的研究,想要「成一家之言」,也依舊需要用到古籍未經整裡的第一手資料,因此對古漢字進行編碼是很有必要的,將古漢字編碼不但利於其資訊處理和古文獻的電子保存與傳播,對於建設數位化圖書館、博物館和檔案館,在線上交換和共用中國文獻,進一步宏揚中華文化也具有重要意義。故本會配合WG2及IRG等國際編碼組織決議將納編古代漢字,以提供整合性的數位文字服務,為數位台灣與e化政府等政府數位化之運作紮下穩健的基礎環境。

工作方法  

一、

召集國內相關研究之專家,討論古漢字編碼之必要性。

二、

召開討論會議,研擬古漢字編碼規範草案。

專家名單  

師大國文系

李鍌教授、張文彬教授、季旭昇教授

花師語教系

許學仁教授

中央警察大學

曾榮汾教授

東吳中文系

許錟輝教授

銘傳中文系

蔡信發教授

文化中文系

黃沛榮教授

逢甲中文系

宋建華副教授

中研院史語所

袁國華先生

中研院資訊所

林正偉先生

中研院計算中心

曾士熊先生

故宮博物院器物處

游國慶先生

行政院主計處

劉秋菊組長、潘城武組長、余保倫先生

教育部國語會

楊永全主任

會議記錄  

一、第一次會議

(一)會議時間:93年4月30日 星期五 P.M 2:30∼5:00

(二)會議地點:中推會會議室

(三)會議議題:
   1.是否需要對古漢字進行編碼?
   2.如需做古漢字編碼,應如何進行?

(四)出席者:
   李鍌教授(師大國文系)
   吳烈能先生(台北市電腦公會)
   季旭昇教授(師大國文系)
   張文彬教授(師大國文系)
   許學仁教授(花師語教系)
   陳星光先生(經濟部檢驗局)
   曾士熊先生(中研院計算中心)
   楊永全主任(教育部國語會)
   潘城武組長(行政院主計處)
   蔡信發教授(銘傳中文系)

(五)列席者:
   中推會 魏林梅小姐

(六)會議內容:
   1.是否需要對古漢字進行編碼?

→是。不但要做,而且要積極的做。 會議中,專家們一致認為:對古漢字進行編碼很有必要,有利於古漢字的資訊處理和古文獻的電子保存與傳播,對建設數位化圖書館、博物館和檔案館,及進一步宏揚中華文化具有重要意義。

  2.如需做古漢字編碼,應如何進行?
    2.1 明確古漢字編碼的必要性。
    2.2 訂定古漢字的定義。
    2.3 確定古漢字編碼的原則。
    2.4 協商成立古漢字編碼研究工作組。
    2.5 形成提交國際會議的提案

3.關於古漢字的編碼原則,專家們於會中提出兩種方案進行討論:
    3.1 補充對應編碼方案──

即凡與現代漢字有對應關係的古漢字不再編碼,與相應的現代漢字共用同一編碼,通過字形檔來實現;與現代漢字沒有對應關係的,則補充編碼。此方案有利於不同時代漢字的對應和溝通。

    3.2 單獨編碼方案──

即古漢字不與現代漢字共用同一編碼,而是單獨進行編碼。理由是:古今漢字的對應關係比較複雜,不是短期內能研究清楚的;大量古漢字與現代漢字無對應關係,即使有對應關係的,也未必是一一直接對應的關係,而通過單獨編碼建立起古漢字字形檔後,隨著研究的深入可以利用關聯的方式解決古今漢字對應問題。

 

(七)會議結論:
1.確定進行古漢字編碼工作:

1.1

定義出古漢字的內涵和外延,使古漢字的編碼工作有明確的範圍。

1.2

制定科學的收字原則,收字原則於下次會議時擬定。

2.成立古漢字編碼研究工作組,並尋求相關單位經費補助。

二、第二次會議

(一)會議時間:93年8月13日 星期五 A.M 9:30∼P.M 12:00

(二)會議地點:中推會會議室

(三)會議議題:
   1.古漢字的定義
   2.古漢字的範圍
   3.古漢字如何編碼?
   4.古漢字的編碼原則?

(四)出席者
   李鍌教授(師大國文系)
   吳烈能先生(台北市電腦公會)
   季旭昇教授(師大國文系)
   林正偉先生(中研院資訊所)
   袁國華助理研究員(中研院史語所)
   張文彬教授(師大國文系)
   許學仁教授(花蓮師院語教系)
   陳星光先生(經濟部標準檢驗局)
   曾榮汾教授(中央警察大學)
   曾士熊先生(中研院電算中心)
   黃沛榮教授(文化中文系)
   楊永全主任(教育部國語會)
   潘城武組長(行政院主計處電子處理資料中心)
   蔡信發教授(銘傳中文系)

(五)列席者
   中推會 魏林梅小姐、黃 可小姐、呂兆歡先生

(六)會議結論

1.

曾士熊先生說明此次會議因由及重點:IRG成都會議,決議進行古漢字編碼,並決定古漢字之範圍定在「隸書(漢隸)」之前,到「小篆」為止。今年六月加拿大的WG2會議,同意台灣進行,並且於今年十一月底到十二月初,韓國濟州島舉行的IRG會議中,台灣須在會中提出「古漢字編碼規則」。

2.

本次會議之議題「古漢字定義」及「古漢字範圍」合併討論,又因IRG會議已定古漢字之範圍,故僅須確定古漢字分類收錄的範圍。

3.

古漢字分類收錄議定結果:
3.1 甲骨文(內分「商代甲骨」及「西周甲骨」)
3.2 金文(原定「金石」,但求精細,故金石分開,籀文歸屬金文)
3.3 玉石文字(玉器、石刻等,含「雜器」。)
3.4 簡帛文字(簡牘及帛書,秦隸歸屬於「簡牘」)
3.5 小篆(《說文》小篆,傳抄古文不含在內)
3.6 其他

4.

議定古漢字的八項「屬性」──

4.1 時代:

商、西周、春秋、戰國、秦。

4.2 材料:

甲骨、銅器、玉石、簡帛、說文解字。

4.3 空間:

即地域,秦系、楚系、晉系、齊系、燕

4.4 異寫:

與「異構」不同,異構之字形需另外編碼,若為異之字形,則須找出「代表字」,而又列異寫之字形。異構之字可列為「備考」。

4.5 部首:

以《說文》五百四十部序為原則。

4.6 音讀:

現代音。

4.7 對應的現代漢字:若無,則可不用。

4.8 出處

 

5.

依此,則編碼分成二十二個區塊:
5.1 商甲骨
5.2 商金文
5.3 商玉石文字
5.4 西周甲骨
5.5 西周金文
5.6 西周玉石文字
5.7 春秋金文
5.8 春秋玉石文字
5.9 戰國楚系簡帛
5.10 戰國楚系金文
5.11 戰國楚系玉石文字
5.12 戰國晉系金文
5.13 戰國晉系玉石文字    
5.14 戰國齊系金文
5.15 戰國齊系玉石文字
5.16 戰國燕系金文
5.17 戰國燕系玉石文字
5.18 戰國秦系簡帛
5.19 戰國秦系金文(含籀文)
5.20 戰國秦系玉石文字
5.21 小篆
5.22 其他

6.

表格:由季旭昇老師提出,可以此表格作為每個字的整理──


7.

由袁國華老師、許學仁老師、季旭昇老師進行範例撰寫,於兩個星期後交出,三位老師負責範圍如下:  
許學仁──西周金文
季旭昇──商代甲骨文
袁國華──戰國簡牘

 

三、第三次會議

(一)會議時間:93年9月9日 星期四 A.M 9:30∼P.M 12:00

(二)會議地點:中推會會議室

(三)會議議題:
   1.古漢字編碼範例討論
   2.古漢字編碼之工作程序
   3.古漢字編碼之方式?
   4.古漢字編碼之認同原則?

(四)出席者
   李鍌教授(師大國文系)
   季旭昇教授(師大國文系)
   宋建華副教授(逢甲中文系)
   余保倫先生(行政院主計處)
   林正偉先生(中研院資訊所)
   袁國華助理研究員(中研院史語所)
   張文彬教授(師大國文系)
   許錟輝教授(東吳中文系)
   許學仁教授(花蓮師院語教系)
   陳星光先生(經濟部標準檢驗局)
   曾榮汾教授(中央警察大學)
   曾士熊先生(中研院計算中心)
   游國慶先生(故宮博物院器物處)
   楊永全主任(教育部國語會)
   劉秋菊組長(行政院主計處)
   蔡信發教授(銘傳中文系)

(五)列席者
   中推會 魏林梅小姐、黃 可小姐、呂兆歡先生

(六)會議結論

1.第二次會議紀錄修改部分

1.1

會議因由及重點:IRG成都會議,決議成立工作小組進行古漢字編碼,並將古漢字之範圍界定在「先秦文字」。今年六月加拿大的WG2會議,同意IRG進行。預期今年十一月底到十二月初,韓國濟州島舉行的IRG會議中,古漢字編碼工作組將討論古漢字編碼規則。

1.2

原議定古漢字的八項屬性中之「材料」一項,內容更改為:甲骨、銅器、玉石、簡帛、《說文解字》。

1.3

小篆係指《說文》小篆,傳抄古文不在此列。

1.4

原分類之名稱「甲骨」、「簡帛」改稱「甲骨文」、「簡帛文字」。

2.範例討論部分

2.1

季旭昇教授──商甲骨字表草案(詳見附錄二)

2.1.1

代表字及原形之圖檔大小以〝清楚〞為原則。

2.1.2

資料來源部分使用簡稱,故需附「簡稱表」。

2.1.3

無法確定的字形,其〝對應今字〞及〝部首歸類〞的解決方法為─

2.1.3.1

另闢一「隸定」欄位:依原始字形作隸定,並依隸定文字編碼。

2.1.3.2

對應今字係指「應用上的對應」,若無則可不列。

2.1.3.3

在總說明處需說明一古漢字可對應兩字或兩字以上,而隸定欄位只有一個字形。

2.1.3.4

亦需說明「異構」的標準,最小到橫、豎、撇、點、折的不同。

2.1.3.5

「異構」及「異寫」之差異:在字形結構中,某個〝部件〞有不同的寫法,或是由乙部件代替原來的甲部件,此由乙部件所構成的字即是為「異構」;「異寫」係指某字在書寫上,某些筆畫有些微不同的寫法,但並不會改變本字的基本形體,然古漢字時間久遠,在判定上會涉及到基本筆畫的形體,如由〝點〞變〝橫〞即為「異構」,但點大點小,橫長橫短等差異,仍屬「異寫」。

2.1.4

漢字音讀以〝注音符號〞標示,日後若有需要再加入〝漢語拼音〞。

2.2

宋建華老師建議摹寫的點數以2400dpi為主,較清晰好看。

2.3

許學仁教授──金文字表草案(詳見附錄三)

2.3.1

「材質」改稱「材料」

2.3.2

「出處」一欄為資料來源,應另列一「器名」的欄位,標明此字由哪一個器皿出來。

2.3.3

出處「《集成》2763.1-4」的「1-4」,應確定為取字的是哪一個,如此較為精確。

2.4

袁國華老師──戰國楚帛書、秦簡、楚簡字表草案(詳見附錄四)

2.4.1

戰國分早、中、晚期,但於此一併討論。

2.4.2

甲骨文、楚簡沒有「器名」的問題,但楚簡有「文」出處的問題,故仍需列一欄位以標示之。

2.5

綜合以上討論,彙整表格格式修訂如下:

3.

古漢字編碼之工作程序部分
以〝先文字(甲骨文、金文、玉石文字、簡帛文字、小篆、其他)後時代(商、西周、春秋、戰國、秦)〞的原則排列編碼之二十二區塊,其順序經調整後如下:
3.1 商甲骨文
3.2 西周甲骨文
3.3 商金文
3.4 西周金文
3.5 春秋金文
3.6 戰國楚系金文
3.7 戰國晉系金文
3.8 戰國齊系金文
3.9 戰國燕系金文
3.10戰國秦系金文
3.11商玉石文字
3.12西周玉石文字
3.13春秋玉石文字
3.14戰國楚系玉石文字
3.15戰國晉系玉石文字
3.16戰國齊系玉石文字
3.17戰國燕系玉石文字
3.18戰國秦系玉石文字
3.19戰國楚系簡帛文字
3.20戰國秦系簡帛文字
3.21《說文》小篆
3.22其他

4.古漢字編碼之認同規則部分
  4.1 異構字,視之為不同的文字。
  4.2 代表字,由負責的老師選定。
  4.3 《說文解字》選用大徐(徐鉉)本及《說文新附》。

四、第四次會議

(一)會議時間:93年10月15日 星期五 A.M 9:30∼11:00

(二)會議地點:中推會會議室

(三)會議議題:
   1.古漢字編碼之進行方式(作業流程)
   2.古漢字編碼之工作分組及整理類別分配
   3.古漢字編碼之〝其他〞一類,其類別細項討論

(四)出席者
   李鍌教授(師大國文系)
   季旭昇教授(師大國文系)
   宋建華副教授(逢甲中文系)
   袁國華助理研究員(中研院史語所)
   張文彬教授(師大國文系)
   許學仁教授(花蓮師院語教系)
   曾榮汾教授(中央警察大學)

(五)列席者
   中推會 魏林梅小姐、黃 可小姐

(六)會議結論

1.

古漢字編碼之進行順序為:甲骨文→金文→玉石文字→簡帛文字→小篆→其他。

2.

古漢字之屬性彙整表格項目如下:


3.

第一階段的甲骨文(含商甲骨文、西周甲骨文)整理由季旭昇、許學仁、袁國華三位老師負責,工作量如何分配由三位老師自行協調。

4.

代表字之收字原則,以已公認可確定的字先收,尚未確定或是有爭議的字則暫不收入。

5.

異構字之收字原則同代表字,以常見的為主。平均每個代表字之異構字收錄最多以五個字為度。

6.

異構字應單獨獨立為一筆(組),異寫字不單獨獨立為一筆。

7.

〝代表字〞之摹寫為求美觀統一以一人之筆為主,至於何人之筆由三位老師自行推舉,〝原形〞則依據材料掃描貼上。

8.

由三位老師試作三組例字,季旭昇老師負責撰寫編碼工作進行之計畫說明,於十月底前交出,並於下次會議再行討論。

9.

古漢字之〝其他〞一項包含貨幣文、古陶文、璽印文、漆器文等項。