| 语言 | 漢語、日語、韓語 |
|---|---|
| 标准 | MARC-8(英语:MARC-8)(機讀編目格式標準)、ANSI/NISO Z39.64 |
| 现状 | 主要為圖書館系統使用 |
| 分类 | 基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集(TBCS) 機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字(JACKPHY ) |
中文資訊交換碼(Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集和編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[3]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。
此交換碼每個字用三個位元組存儲,在節約空間方面不如大五碼,又不像中文標準交換碼成為官方標準,所以未被電腦業界廣泛採納[4]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[5][6]。故現僅臺灣和美國仍在使用,且只用於大學圖書館的線上目錄檢索系統。
1979年11月,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[7][1][8]。
謝清俊教授返國後,上書政務委員李國鼎及國科會、中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責,文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與,並由王振鵠、張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[8]。
臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[7]。
CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[9]。
「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[8]。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[10][11]。
該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。
一個94段(Section)×94位(Position)的編碼空間稱為面(Plane)。CCCII共有94個面。以6個面組合成為1個層(Layer)。因此CCCII共有16個層,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。
第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,於同段且同位處放置與正體字對應的異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:強、强、彊三字的後兩個位元組是一樣的[12]。
中文資訊交換碼第一冊於1980年4月出版,僅使用了第1面的一部分,編定的字碼包括:[13]:1–17
| 碼位 | 用途 |
|---|---|
| 210421–212A7E | 使用者自定義區 |
| 212B21–212B43 | 中文標點符號35字 |
| 212C22–212E4B | 部首214字、天干地支22字 |
| 212F21–212F78 | 中文數字符號(碼子、小寫數字、大寫數字)41字、注音符號含調號41字 |
| 213021–21632D | 常用國字4,807字[註 1] 此區當時命名為「中國文字第〇集(Chinese Character Set 0, CC0)」 |
本冊字表所用的字體主要採用上海印刷廠的鉛字,但仍有二十餘字缺字,則以照相打字後再拆解拼湊補足。[17]
中文資訊交換碼第二冊、中文資訊交換碼異體字表皆於1981年2月出版。[18]:1–3
中文資訊交換碼第二冊第二版、中文資訊交換碼異體字表第二冊第二版先後於1982年11月、12月出版,修訂內容包含:[19]:17–18,123–127
本次修訂後,整套中文資訊交換碼於中文字部分計收最常用字4,808字、次常用字17,077字、自最常用字或次常用字衍生之異體字11,660字(其中含簡體字3,752字),總計33,545個中文字。
中文資訊交換碼第二冊第三版、中文資訊交換碼異體字表[註 3]第二冊第三版皆於1985年5月出版,修訂內容包含:[21]:17–18,31–38
本次修訂後,整套中文資訊交換碼於中文字部分計收「常用字集」4,808字、「備用字集」17,032字[註 4]、自最常用字或次常用字衍生之異體字11,517字(其中含簡體字3,625字[22]:1–2),總計33,357個中文字。
中文資訊交換碼第三冊於1987年2月出版,稱為「罕用字集」,編定的字碼包括:[23]:編輯說明1–3
| 碼位 | 用途 |
|---|---|
| 236121–262543 | 罕用字集20,583字(次常用字彙314字、罕用字彙12,924字、其他資訊字彙7,345字) |
修訂內容則包含:[23]:附錄1–10
中文資訊交換碼異體字表第一次綜合修訂稿於1989年6月出版,修訂內容包含:[24]
本次異體字表所收的字數當時並未精確統計,後來整理得到「異體字資料屬性卡」30,646字。[25]
中文資訊交換碼異體字表(增修版)於1994年6月出版,修訂內容包含:[25]
本次增修僅在第一次綜合修訂稿上添加新字,以及在字旁加註符號,故不稱之為「第二次綜合修訂稿」。