中文標準交換碼

CNS 11643
别名	中文標準交換碼
语言	繁體中文
标准	CNS 11643
分类	ISO 2022、雙位元組字元集、中日韓統一表意文字
编码格式	EUC-TW（所有字面）; ISO-2022-CN-EXT（字面1–7）; ISO-2022-CN（字面1和字面2）;
其他相关编码	大五碼、中文資訊交換碼

中文標準交換碼（Chinese Standard Interchange Code，簡稱CSIC），是中華民國國家標準11643號，簡稱CNS 11643，舊名通用漢字標準交換碼（Chinese Ideographic Standard Code for Information Interchange，簡稱CISCII），是中華民國政府為中文資訊處理制定的字元編碼方案，與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基于ISO 2022定义，和ASCII相容，其EUC版本為EUC-TW。

簡介

1980年9月，行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議，建立國家中文資訊標準交換碼的編碼原則，並報請行政院核定。隔年，行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組，推動編碼工作。經多次會商，於1983年10月底完成「通用漢字標準交換碼」的試用版，試行二年。試用期滿後，國科會與主計處電資中心邀集相關單位與業者組成技術小組，檢討試用結果，並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局（後改名為標準檢驗局）正式公佈，取名「通用漢字標準交換碼」，其內容包括第一字面、第二字面共13,051字。^[1]

1980年代萬「碼」奔騰，業界使用各種不同的字符編碼，如大五碼、王安碼、IBM 5550碼、公會碼、電信碼^[2]、倚天碼等；CNS 11643與大五碼字數相同（大五碼有13,053字，但有兩個重碼）。藉由此國家標準交換碼的公布與使用，做為各種不同內碼間的橋梁，使得不同的內碼也可以互相溝通和交換，資料可共享。

為因應各界對擴大中文字元集的需求，中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面，共48,027字，並更名為「中文標準交換碼」。2003年，標準檢驗局委託中文數位化技術推廣基金會再次擴編，於2004年推出新版的CNS 11643，將編碼空間由原先規定的十六字面增加到八十字面，並使用至第十五字面。2014年，使用第十七、十九字面。2021年，使用第二十四字面。CNS 11643現有兩個細部標準，「中文字基礎部件及部件屬性」（CNS 11643-2）以及「中文字筆畫分類」（CNS 11643-3）。^[3]^[4]

「CNS11643中文交換碼全字庫」為1999年時，由主計處電資中心委託中文數位化技術推廣基金會建置，用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造，全字庫改由研考會辦理，自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後，網站管理機構調整為數位部。^[5]截至2025年7月，全字庫已收納108,916個文字及符號。若扣除第八、第九、以及第一字面中的符號、注音、部首、漢字構件等的非漢字字元，總共收納96,680個漢字。^[6]

版本

年份	標準名稱	更改
1983	CNS11643-1983	通用漢字標準交換碼試用版推出，包括13,053字及441個符號，12月推出的大五碼，字集與字序與交換碼試用版完全相同，僅字碼定義不同。
1986	CNS11643-1986	通用漢字標準交換碼正式版發行，包括13,051個字（刪除2個重複字，調整20個字順序）與441個符號，其餘均與試用版相同。
1988	CNS11643-1986	增加第十四字面使用者加字區交換碼，共增加6,148字。
1989	CNS11643-1986	再增加第十四字面使用者加字區交換碼，共增加157字。
1992	CNS11643-1992	擴充第3至7字面，增加部首和數字符號，並更換名稱為中文標準交換碼，總共包括48,027個字與684個符號。
2002	CNS14649	國際標準ISO 10646／Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出，包括中、日、韓、越等20,902個漢字，及全球使用的字元。
2004	CNS11643-2004	編碼架構擴充至八十字面。
2008	CNS11643-2008	擴充版發行，增加了戶政用字與異體字等。

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元（英语：Graphic character）多位元組延伸編碼格式^[4]，以2個字节（byte）為中文碼編碼單位，以十六進位制之文數字表示，並且避開控制字元所在的範圍。字面字集之排列，大抵以使用頻率為次序，第一字面以常用字為主，第二字面以次常用字為主，第三字面以部分罕用字及較常用異體字為主，其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中，依先筆畫後部首排列順序來編訂字碼（每一字面均以文字筆畫總數為第一次序，筆劃數同則按照部首為次序，部首同再按照筆順為次序）^[7]。

CNS 11643採用多字面編碼結構，並藉助ISO/IEC 2022所規定的逸出順序（escape sequence）和調用控制符切換字面。因此，同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字（例如：第1字面字元碼454A為中文字「日」，而第2字面的454A是中文字「碇」）。CNS 11643在新版中規定了延伸字元碼，作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前，附加該字元所屬字面的字面指示碼^[4]。

終結字元

目前CNS11643的1至7字面之終結字元（最後字元、最終位元組）[F]已獲國際標準組織ISO正式登記為47至4D，亦可使用於字集之指定^[7]^[8]。依據ISO 237之規定，各國的國家標準若要成為國際間之中文資訊交換標準，必須向國際標準組織申請註冊，並由國際標準組織正式公佈，如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面，每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請，1993年2月1日CNS 11643第一、第二字面正式獲得終結字元：47和48，1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元：49–4D。

CNS字面	CNS暫用終結字元	ISO正式終結字元
第一字面	30	47
第二字面	31	48
第三字面	32	49
第四字面	33	4A
第五字面	34	4B
第六字面	35	4C
第七字面	36	4D

與大五碼關係

大五碼為資訊工業策進會與臺灣十三家資訊業者簽約，共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出，共收錄13,053個漢字（有兩字重複編碼，故實際上只有13,051個字）、408個符號、33個控制字元^[12]，其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同，但碼位不同。「通用漢字標準交換碼」在1986年推出正式版，刪除試用版的2個重複編碼字，調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準，然而所涵蓋的字數不敷實際需求，造成廠商各自增刪，衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託，召集國內業者代表、專家和學者，就大五碼字元表的原始版本和業界主要版本予以重整，稱為Big5-2003^[13]。重整後的版本，去除了重複編碼，並新增7個中文字，以及370個符號，包括30個數字符號、24個部首、14個罕用符號、268個日本假名，以及34個表格符號^[12]。其成果最後收錄至CNS 11643的附錄之中^[14]。

比較

中央標準局所公佈的《通用漢字標準交換碼》（後更名為《中文標準交換碼》，CNS11643）与1984年发布的业界事实标准五大碼（Big5）有共同之处：两者都使用國字標準字體表为基础，但是《中文標準交換碼》所定义的码位更符合國字標準字體表所选定的字形。國字標準字體表本身并未定义字形的码位，而是依赖于其他标准将字形赋予码位。

其中，五大碼与现在的《中文標準交換碼》有部分收字差异：

五大碼与《中文標準交換碼》(CNS11643)的差异^[15]
國字	字表序號^[16]	CNS 11643	Big5收录异体	備註
彞（U+5F5E）	A01266	1-7641	彝（C255，U+5F5D）
叄（U+53C4）	B00287	3-3455		五大碼未收录
噍（U+564D）	B00439	3-4B43		五大碼未收录
㚷（U+36B7）	B00635	3-2847		五大碼未收录
嬎（U+5B0E）	B00715	3-4B5F	嬔（E955，U+5B14）	CNS 11643第二字面2-565F疑似誤收「嬔」（U+5B14）字，但是显示为无点的「嬎」（U+5B0E）
尔（U+5C14）	B00760	3-223F		五大碼未收录
㮣（U+3BA3）	B01783	3-4167		五大碼未收录
礴（U+7934）	B03027	2-662B	礡（F2A1，U+7921）	Unicode統合時錯誤對應到統合漢字「礡」（U+7921）上，已於2023年11月3日修正2-662B字形，並在2-7245增加正確的「礴」（U+7934）
緵（U+7DF5）	B03452	3-4E2B	繌（EDDB，U+7E4C）	CNS 11643第二字面2-5E48疑似誤收「繌」（U+7E4C）字
阸（U+9638）	B05531	4-2833		五大碼未收录
鰌（U+9C0C）	B05989	3-5D76		五大碼未收录

參看

資料來源

^ 余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始内容存档 (PDF)于2022-12-16）.
^ 陳冠州. 電信碼. 國家教育研究院樂詞網. 1995-12 [2024-04-29]. （原始内容存档于2024-04-29）.
^ 存档副本. [2015-03-28]. （原始内容存档于2015-04-02）.
^ ^4.0 ^4.1 ^4.2 曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始内容存档于2022-05-28）.
^ 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始内容存档于2022-12-16）.
^ 全字庫現況. 全字庫 CNS11643. [2025-05-21]. （原始内容存档于2025-04-03）.
^ ^7.0 ^7.1 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始内容存档 (PDF)于2022-12-17）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-10）.
^ ^12.0 ^12.1 曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始内容存档于2022-05-28）.
^ 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
^ 謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始内容存档于2022-12-17）.
^ 次常用國字標準字體表 - 字嗨！. zi-hi.com. [2023-04-25]. （原始内容存档于2021-05-14）.
^ 国家教育研究院. 教育部异体字字典. [2021-05-14]. （原始内容存档于2021-05-15）（中文（臺灣））.