Movatterモバイル変換


[0]ホーム

URL:


跳转到内容
维基百科自由的百科全书
搜索

中文資訊交換碼

维基百科,自由的百科全书
CCCII / EACC
漢字在CCCII中的位置和字型,包含了正體字簡體字異體字日本漢字的寫法
语言漢語日語韓語
标准MARC-8英语MARC-8機讀編目格式標準)、ANSI/NISO Z39.64
现状主要為圖書館系統使用
分类基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集(TBCS)
機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字(JACKPHY )

中文資訊交換碼Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[3]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。

此交換碼每個字用三個位元組存儲,在節約空間方面不如大五碼,又不像中文標準交換碼成為官方標準,所以未被電腦業界廣泛採納[4]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[5][6]。故現僅臺灣和美國仍在使用,且只用於大學圖書館線上目錄檢索系統

簡介

[编辑]

1979年11月,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[7][1][8]

謝清俊教授返國後,上書政務委員李國鼎國科會中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶楊鍵樵黃克東教授負責,文字審查工作則有潘重規周駿富周何何佑森金祥恆等教授參與,並由王振鵠張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[8]

臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[7]

CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[9]

「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[8]。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[10][11]

編碼結構

[编辑]

該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。

一個94Section)×94Position)的編碼空間稱為Plane)。CCCII共有94個面。以6個面組合成為1個Layer)。因此CCCII共有16個層,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。

第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,於同段且同位處放置與正體字對應的異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:三字的後兩個位元組是一樣的[12]

版本

[编辑]

第一冊

[编辑]

中文資訊交換碼第一冊於1980年4月出版,僅使用了第1面的一部分,編定的字碼包括:[13]:1–17

碼位用途
210421–212A7E使用者自定義區
212B21–212B43中文標點符號35字
212C22–212E4B部首214字天干地支22字
212F21–212F78中文數字符號(碼子、小寫數字、大寫數字)41字、注音符號含調號41字
213021–21632D常用國字4,807字[註 1]
此區當時命名為「中國文字第〇集(Chinese Character Set 0, CC0)」

本冊字表所用的字體主要採用上海印刷廠的鉛字,但仍有二十餘字缺字,則以照相打字後再拆解拼湊補足。[17]

第二冊

[编辑]

中文資訊交換碼第二冊、中文資訊交換碼異體字表皆於1981年2月出版。[18]:1–3

中文資訊交換碼第二冊第二版、中文資訊交換碼異體字表第二冊第二版先後於1982年11月、12月出版,修訂內容包含:[19]:17–18,123–127

  • 發現1982年修訂並正式啟用的教育部《常用國字標準字體表》相較於1979年版刪去7字並加入8字[註 2],刪去的7字不隨之從最常用字區中移出,而加入的8字除了「芈」字補收入最常用字區(216330)以外,其餘7字均已編入次常用字區而維持不動,不隨之自移入最常用字區;
  • 刪除100組重複出現字;
  • 有4字互為異體字,移入異體字表;
  • 有4字位置排錯(垮、垢;躡、躪),兩兩一組互換字碼;
  • 部首列錯,更正7字;字形修正152字;筆劃錯誤204字。

本次修訂後,整套中文資訊交換碼於中文字部分計收最常用字4,808字、次常用字17,077字、自最常用字或次常用字衍生之異體字11,660字(其中含簡體字3,752字),總計33,545個中文字。

中文資訊交換碼第二冊第三版、中文資訊交換碼異體字表[註 3]第二冊第三版皆於1985年5月出版,修訂內容包含:[21]:17–18,31–38

  • 根據1982年《常用國字標準字體表》、《次常用國字標準字體表》修訂字形;
  • 第二冊第二版曾刪除的字當中有37字符合教育部標準,填回原位;
  • 刪除34組重複出現字;
  • 有異體字47字誤編入正體字區,改移入異體字表;
  • 第二冊、第二冊第二版字表所用的字體皆為手寫楷體,本次修訂時改用電腦製版之明體。

本次修訂後,整套中文資訊交換碼於中文字部分計收「常用字集」4,808字、「備用字集」17,032字[註 4]、自最常用字或次常用字衍生之異體字11,517字(其中含簡體字3,625字[22]:1–2),總計33,357個中文字。

第三冊

[编辑]

中文資訊交換碼第三冊於1987年2月出版,稱為「罕用字集」,編定的字碼包括:[23]:編輯說明1–3

碼位用途
236121–262543罕用字集20,583字(次常用字彙314字、罕用字彙12,924字、其他資訊字彙7,345字)

修訂內容則包含:[23]:附錄1–10

  • 部首列錯,更正75字,字碼則不變;
  • 刪除26組重複出現字;
  • 更正第二冊字表中錯誤的字形5字。

中文資訊交換碼異體字表第一次綜合修訂稿於1989年6月出版,修訂內容包含:[24]

  • 發現先前未對應任何異體字的正體字中,有些實際上有其異體字;
  • 先前被列為異體字的,有些實際上為非異體字的通用字與假借字;
  • 罕用字組中誤收到異體字二萬餘字,必須改移入異體字表;
  • 有戶籍用字約九千字,須加入異體字表。

本次異體字表所收的字數當時並未精確統計,後來整理得到「異體字資料屬性卡」30,646字。[25]

中文資訊交換碼異體字表(增修版)於1994年6月出版,修訂內容包含:[25]

  • 根據1986年第一版《汉语大字典》增收新字,填入字表,但當第3層至第12層的10個格子皆已用盡時,則添於列尾格子之外,暫不賦予字碼;
  • 研判字表所列之異體字中,有誤寫字、另為他字、被字書指為訛誤、假借字、筆勢略異字、古今字等情形,以符號在字旁註記。

本次增修僅在第一次綜合修訂稿上添加新字,以及在字旁加註符號,故不稱之為「第二次綜合修訂稿」。

另見

[编辑]

注释

[编辑]
  1. ^1979年版《常用國字標準字體表》中「茹」字有二個[14][15][16],僅編不重複的4,807字。
  2. ^刪去的7字為:佈、咩、嚰、廸、徧、睱、莧;加入的8字為:臧、苒、菽、裊、諍、諮、豕。
  3. ^本次異體字表又分為(甲)、(乙)兩個版本印行,差異為(乙)版的字表將簡體字全數刪除留空[20]:1–2
  4. ^次常用字彙6,025字、罕用字彙5,364字、異體字彙2,112字、其他資訊應用字彙3,531字。

参考文献

[编辑]
  1. ^1.01.1中文字集字碼簡介/ 編目組 - 東吳大學圖書館(PDF). [2022-12-18]. (原始内容存档(PDF)于2022-12-26). 
  2. ^2.02.12.2謝清俊; 黃克東. 顧秋芬 , 编. 國字整理小組十年. 資訊應用國字整理小組. 1989-12. 
  3. ^〈(二)國字整理小組編年紀事(民國68年至78年)〉[2]:29–34
  4. ^李世平.多管齊下,徹底解決罕用字問題. ithome. 2007-05-30 [2022-12-20]. (原始内容存档于2022-12-20). 
  5. ^(英文)Unicode Project(Library, City University of Hong Kong)页面存档备份,存于互联网档案馆
  6. ^(英文)Unicode Migration(Library, Chinese University of Hong Kong)页面存档备份,存于互联网档案馆
  7. ^7.07.1認識全字庫- 中文碼介紹. [2022-12-18]. (原始内容存档于2021-05-14). 
  8. ^8.08.18.2宋建成.國家圖書館故事. 卷二, 館藏發展與整理. 2020: 113 [2022-12-18]. (原始内容存档于2022-12-18). 
  9. ^曾世熊.中文資訊交換碼 Chinese Character Code for Information Interchange,簡稱CCCII. 圖書館學與資訊科學大辭典. [2022-12-18]. (原始内容存档于2022-12-18). 
  10. ^Ken Lunde.CJKV Information Processing. O'Reilly Media. 2009: 123 [2022-12-20]. (原始内容存档于2022-12-20). 
  11. ^中央研究院資訊科學研究所 20 週年慶特刊 謝清俊先生之簡介與訪談簡要. [2022-12-20]. (原始内容存档于2020-10-20). 
  12. ^來源參考:(中文)中文資訊交換碼,國字計劃小組,主編人張仲陶
  13. ^中文資訊處理用字研究小組 (编). 中文資訊交換碼 · 第一冊. 臺北市:中國圖書館學會. 1980-04. 
  14. ^教育部 (编). 常用國字標準字體表(初稿名國民常用字表). 1978-05-20: 348. 
  15. ^教育部 (编). 常用國字標準字體表(訂正本). 臺北市:正中書局. 1979-06: 420. 
  16. ^周駿富,〈中文電腦的耕耘〉,1989年10月29日[2]:61–66
  17. ^張仲陶,〈茶餘偶拾〉,1989年10月22日[2]:55–60
  18. ^資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中國文字資料庫續集. 臺北市: 行政院文化建設委員會. 1987-05. 
  19. ^中文資訊交換碼 · 第二冊 第二版. 臺北市: 國字整理小組. 1980-04. 
  20. ^資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中文資訊交換碼異體字表(乙) · 第二冊 第三版. 臺北市: 行政院文化建設委員會. 1985-05. 
  21. ^資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中文資訊交換碼 · 第二冊 第三版. 臺北市: 行政院文化建設委員會. 1985-05. 
  22. ^資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中文資訊交換碼異體字表(甲) · 第二冊 第三版. 臺北市: 行政院文化建設委員會. 1985-05. 
  23. ^23.023.1資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中文資訊交換碼 · 第三冊. 臺北市: 行政院文化建設委員會. 1987-02. 
  24. ^行政院資訊應用國字整理小組編輯委員會. 張仲陶 , 编. 中文資訊交換碼異體字表 · 第一次綜合修訂稿. 臺北市: 行政院文化建設委員會. 1989-06. 
  25. ^25.025.1行政院文化建設委員會資訊應用國字整理小組. 中文資訊交換碼異體字表(增修版). 臺北市: 行政院文化建設委員會. 1994-06. 

外部連結

[编辑]
早期電信
ISO/IEC 8859
書目
國家標準
ISO/IEC 2022
macOS代码页
DOS代碼頁
IBM AIX代碼頁
Microsoft Windows代碼頁英语Windows code page
EBCDIC代碼頁
DEC終端機(VTx英语VT220
特定平臺
Unicode通用字符集
TeX排版系統
其他代碼頁
控制字符
相關條目
检索自“https://zh.wikipedia.org/w/index.php?title=中文資訊交換碼&oldid=89054971
分类:​

[8]ページ先頭

©2009-2025 Movatter.jp