中文標準交換碼
中文標準交換碼(Chinese Standard Interchange Code,簡稱CSIC),是中華民國國家標準11643號,簡稱CNS 11643,舊名通用漢字標準交換碼(Chinese Ideographic Standard Code for Information Interchange,簡稱CISCII),是中華民國政府為中文資訊處理制定的字元編碼方案,與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基于ISO 2022定义,和ASCII相容,其EUC版本為EUC-TW。 簡介1980年9月,行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議,建立國家中文資訊標準交換碼的編碼原則,並報請行政院核定。隔年,行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組,推動編碼工作。經多次會商,於1983年10月底完成「通用漢字標準交換碼」的試用版,試行二年。試用期滿後,國科會與主計處電資中心邀集相關單位與業者組成技術小組,檢討試用結果,並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局(後改名為標準檢驗局)正式公佈,取名「通用漢字標準交換碼」,其內容包括第一字面、第二字面共13,051字。[1] 1980年代萬「碼」奔騰,業界使用各種不同的字符編碼,如大五碼、王安碼、IBM 5550碼、公會碼、電信碼[2]、倚天碼等;CNS 11643與大五碼字數相同(大五碼有13,053字,但有兩個重碼)。藉由此國家標準交換碼的公布與使用,做為各種不同內碼間的橋梁,使得不同的內碼也可以互相溝通和交換,資料可共享。 為因應各界對擴大中文字元集的需求,中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面,共48,027字,並更名為「中文標準交換碼」。2003年,標準檢驗局委託中文數位化技術推廣基金會再次擴編,於2004年推出新版的CNS 11643,將編碼空間由原先規定的十六字面增加到八十字面,並使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面。CNS 11643現有兩個細部標準,「中文字基礎部件及部件屬性」(CNS 11643-2)以及「中文字筆畫分類」(CNS 11643-3)。[3][4] 「CNS11643中文交換碼全字庫」為1999年時,由主計處電資中心委託中文數位化技術推廣基金會建置,用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造,全字庫改由研考會辦理,自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後,網站管理機構調整為數位部。[5]截至2025年6月,全字庫已收納108,916個文字及符號。若扣除第八、第九、以及第一字面中的符號、注音、部首、漢字構件等的非漢字字元,大約有96,680多個漢字。[6] 版本
編碼格式CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元多位元組延伸編碼格式[4],以2個字节(byte)為中文碼編碼單位,以十六進位制之文數字表示,並且避開控制字元所在的範圍。字面字集之排列,大抵以使用頻率為次序,第一字面以常用字為主,第二字面以次常用字為主,第三字面以部分罕用字及較常用異體字為主,其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中,依先筆畫後部首排列順序來編訂字碼(每一字面均以文字筆畫總數為第一次序,筆劃數同則按照部首為次序,部首同再按照筆順為次序)[7]。 CNS 11643採用多字面編碼結構,並藉助ISO/IEC 2022所規定的逸出順序(escape sequence)和調用控制符切換字面。因此,同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字(例如:第1字面字元碼454A為中文字「日」,而第2字面的454A是中文字「碇」)。CNS 11643在新版中規定了延伸字元碼,作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前,附加該字元所屬字面的字面指示碼[4]。 終結字元目前CNS11643的1至7字面之終結字元(最後字元、最終位元組)[F]已獲國際標準組織ISO正式登記為47至4D,亦可使用於字集之指定[7][8]。依據ISO 237之規定,各國的國家標準若要成為國際間之中文資訊交換標準,必須向國際標準組織申請註冊,並由國際標準組織正式公佈,如此全球各國即可依國際標準公佈之終結字元進行資料交換。 CNS 11643-1992所包括的七個字面,每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請,1993年2月1日CNS 11643第一、第二字面正式獲得終結字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元:49–4D。
最新版本2021年版CNS 11643字面配置如下:
與大五碼關係大五碼為資訊工業策進會與臺灣十三家資訊業者簽約,共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出,共收錄13,053個漢字(有兩字重複編碼,故實際上只有13,051個字)、408個符號、33個控制字元[12],其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同,但碼位不同。「通用漢字標準交換碼」在1986年推出正式版,刪除試用版的2個重複編碼字,調整了20個字的順序。 大五碼後來成為繁體中文社群最常用的電腦漢字字集標準,然而所涵蓋的字數不敷實際需求,造成廠商各自增刪,衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就大五碼字元表的原始版本和業界主要版本予以重整,稱為Big5-2003[13]。重整後的版本,去除了重複編碼,並新增7個中文字,以及370個符號,包括30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號[12]。其成果最後收錄至CNS 11643的附錄之中[14]。 比較中央標準局所公佈的《通用漢字標準交換碼》(後更名為《中文標準交換碼》,CNS11643)与1984年发布的业界事实标准五大碼(Big5)有共同之处:两者都使用國字標準字體表为基础,但是《中文標準交換碼》所定义的码位更符合國字標準字體表所选定的字形。國字標準字體表本身并未定义字形的码位,而是依赖于其他标准将字形赋予码位。 其中,五大碼与现在的《中文標準交換碼》有部分收字差异:
參看資料來源
外部連結 |
Portal di Ensiklopedia Dunia