CNS 11643
CNS 11643 문자 집합(중화민국 국가 표준 11643)은 공식적으로 중국 표준 교환 코드 또는 CSIC[1] (중국어 정체자: 中文標準交換碼)로 알려져 있으며, 타이완의 공식 표준 문자 집합이다. CNS 11643의 발행 및 초안 버전은 타이완에서 사용하기 위해 제출된 한중일 통합 한자에 대한 유니코드 참조 글리프의 원본 표준으로 남아 있으며,[2] CNS 11643의 문자 레퍼토리는 계속 업데이트되고 타이완의 행정 목적으로 사용되고 있다.[3] EUC-TW는 확장 유닉스 코드(EUC) 형식의 CNS 11643 및 ASCII의 인코딩된 표현이다. 실제로, CNS 11643의 첫 두 평면과 밀접하게 관련된 Big5 문자 집합의 변형들은 유니코드가 도입되기 전까지 정체자에 대한 사실상의 표준 인코딩으로 사용되었다. 특정 CSIC 평면을 표현할 수 있는 다른 인코딩으로는 ISO-2022-CN (평면 1, 2) 및 ISO-2022-CN-EXT (평면 1–7)가 있다. 구조CNS 11643은 ISO 2022를 따르도록 설계되었지만, 처음 일곱 개의 94×94 문자 평면만 ISO-IR 등록되어 있다. 평면의 총 수는 표준의 연속적인 개정판에 따라 다양했으며, 가장 최근의 보류 중인 초안은 19개의 평면을 가지고 있다.[2] 따라서 모든 평면에서 인코딩 가능한 최대 문자 수는 19×94×94 = 167884이다. 평면 1부터 7까지는 표준에 의해 정의되어 있으며, 2007년부터는 평면 10부터 15까지도 표준에 의해 정의되었다.[4]:115–122 이전에는 평면 12부터 15까지(35344 코드 포인트) 사용자 정의 문자를 위해 특별히 지정되었다. CCCII와 달리 CNS 11643에서의 변형 문자 인코딩은 관련이 없다. 역사표준의 첫 번째 판은 1986년에 발행되었으며, 평면 1과 2를 포함했다. 이 평면들은 Big5의 레벨 1과 2에서 파생되었으며, 획수 수정으로 인한 일부 재배열, 두 개의 중복 문자 생략, 그리고 평면 1에 213개의 고전 부수 추가(214개의 강희자전 부수 중 210개는 기존 Big5 문자와, 나머지 3개는 HKSCS 문자의 사실상 중복)가 있었다.[5] (강희자전 부수 (유니코드 블록) 참조). 표준의 확장은 이어서 1988년(6319자, 평면 14 사용)과 1990년(7169자, 평면 15 사용)에 발행되었다.[4]:115–122 유니코드 1.0.0은 아직 한자를 포함하지 않았지만, CNS 11643과의 호환성을 위한 문자를 포함했다. 한중일 호환용 꼴 블록은 유니코드 1.0.0에서 "CNS 11643 호환성"이라는 이름으로 명명되었다.[6] 유니코드 1.0.1을 위해 유니코드 한중일 통합 한자 집합이 컴파일될 때, 각국 기관들은 포함을 위해 한중일 공동 연구 그룹에 문자 집합을 제출했다. 제출된 CNS 11643 버전은 평면 14 확장 외에도 평면 14에 추가로 원하는 문자(표준 버전 확장에서 마지막으로 사용된 코드 포인트인 68–21 이후)를 추가했다.[4]:179–180 1992년에 발행된 표준의 두 번째 판에서는 7개의 평면에 걸쳐 훨씬 더 많은 한자 모음이 정의되었다. 1988년 평면 14 확장 중 대다수(01-01부터 66–38까지의 6148개 코드 포인트로 구성)는 평면 3으로 채택되었으며(나머지 171개 문자, 즉 66-39부터 68–21까지의 코드 포인트는 대신 평면 4에 분산되었다). 평면 15 확장은 포함되지 않았지만, 그 중 338개 문자가 평면 4부터 7까지에 포함되었다.[4]:115–122 2007년에 발행된 표준의 세 번째 판에서는 유로 기호, 표의 문자 0, 가나 (문자) 및 기존 주음부호와 로마자 지원에 대한 확장이 평면 1에 추가되었다. 이 판은 추가 한자를 포함하는 평면 10부터 14까지를 도입했으며, 기존 평면 15 확장을 표준 자체에 통합했다(평면 4부터 7까지에 이미 존재하는 문자는 공백으로 남겨두었다). 또한 유니코드에 포함하기 위해 제출된 1988년 평면 14 버전의 추가 사항을 기반으로, 코드 포인트 68–40부터 시작하여 평면 3에 128개의 추가 한자를 추가했다.[4]:115–122 평면 번호 매기기
현재 목적 및 유니코드와의 관계CNS 11643 레퍼토리는 교육에 사용되는 문자 외에도 타이완에서 호적 등록 및 주민등록증과 같은 행정 목적으로 사용되는 문자를 포함한다.[3] 특히 평면 1과 2의 문자는 교육에 사용된다.[11] CNS 11643에서는 교육에 사용되는 문자만 글리프 형식 정규화 대상이 된다.[12] 이 코드는 계속 확장되어, 19개 평면까지 추가적인 평면이 초안으로 작성되었지만, 아직 CNS 11643 버전의 일부로 발행되지는 않았다.[2] 2007년 판에 대한 2022년 개정안은 평면 2의 끝에 U+7934 礴 를 추가했으며, 평면 1과 2의 여러 글리프 형식을 수정했다.[11] 1992년 및 2007년 CNS 11643 버전과 최근 작업 초안은 타이완에서 사용하기 위해 제출된 한중일 통합 한자에 대한 참조 글리프의 Unihan 소스 역할을 하지만,[2] 2017년 기준[update] 기준으로 유니코드에 해당하는 문자가 없거나 유니코드를 통해 왕복 변환되지 않는 수천 개의 CNS 11643 문자가 여전히 존재하며, 대부분 평면 10부터 14에 있다. 이들은 유니코드 보충용 개인용 영역으로 매핑된다.[13] 어떤 경우에는 두 개 이상의 CNS 11643 문자가 단일 유니코드 한중일 통합 한자에 해당한다. 이러한 경우(현재 한중일 호환용 한자 보충 블록에 포함된 경우를 제외하고) 유니코드 보충용 개인용 영역 코드 포인트로 매핑되지만,[12] Ideographic Research Group에 참여하고 있는 타이베이 컴퓨터 협회는 미래에 이들을 표의 문자 변형 시퀀스로 등록할 가능성을 평가하고 있다.[12][14] Big5와의 관계Big5 인코딩의 레벨 1과 2는 각각 CNS 11643 평면 1과 2에 주로 해당하지만, 가끔 순서가 다르거나 Big5에만 있고 CNS 11643에는 없는 두 개의 중복 한자가 존재한다. 이는 범위 목록을 사용하여 매핑할 수 있다.[15][16] 그러나 CNS 11643 평면 1의 213개 고전 부수는 Big5에서 사용할 수 있는 문자에 추가된 것이며(Big5 또는 HKSCS의 해당 한자 문자에 손실적으로 매핑될 수 있지만),[5] 2007년에는 CNS 11643 평면 1에 추가 문자가 더해졌다.[4]:115–122 Big5의 Big5-2003 변형은 CNS 11643의 부분 인코딩으로 정의된다. Big5 한자 레퍼토리 내에서, 단 하나의 평면 1 문자가 CNS 11643의 첫 두 평면에 해당하는 문자로부터 유니코드에 다르게 매핑된다: U+5F5D (彝)로 매핑되는 반면, 그 CNS 평면 1 대응 문자는 U+5F5E (彞)의 관련 변형에 매핑된다;[17] U+5F5D는 CNS 11643 평면 3에 별도로 포함되어 있다.[5] 그러나 IBM에서 정의한 일부 Big5의 변형 매핑은 U+5F5D 대신 U+5F5E를 포함한다.[18] 마찬가지로 Big5 레벨 2의 단일 문자(IBM 변형 포함)[19]는 CNS 11643 평면 2 대응 문자(U+7B9A (箚)로 매핑되는 반면, Unihan 데이터베이스는 현재 CNS 11643 문자를 U+7B9A로 매핑한다)와 다른 유니코드 코드 포인트(U+5284 (劄)로 매핑)에 매핑된다. U+5284는 CNS 11643 평면 14에 나타난다.[5] 각주
외부 링크
|
Portal di Ensiklopedia Dunia