유니코드 등가성
유니코드 등가성(Unicode equivalence)은 특정한 일련의 코드포인트들이 반드시 동일 문자를 대표해야 하는 유니코드 문자 인코딩 표준의 사양이다. 이 기능은 비슷하거나 동일한 문자들을 포함하는 기존의 표준 문자 집합과의 호환성을 허용하기 위해 표준에 도입되었다. 유니코드는 2가지 개념을 제공하는데, 하나는 표준 형식의 등가성이고 나머지 하나는 호환성이다. 표준 형식의 등가성으로 정의되는 코드포인트 시퀀스는 인쇄와 출력을 할 때 동일한 모양과 의미를 가질 것으로 추정한다. 이를테면 코드포인트 U+006E(라틴어 소문자 "n")에 이어서 U+0303(결합 물결표 "◌̃")가 오면 하나의 코드포인트 U+00F1(스페인어 알파벳의 소문자 "ñ")과 동일하게 정의된다. 그러므로 이 시퀀스들은 동일한 방식으로 표시되어야 하고 이름의 알파벳순 배열이나 검색 등을 할 때 애플리케이션에서 동일하나 방식으로 처리되어야 한다. 이 표준은 동등한 문자 시퀀스를 대체함으로써 2개의 텍스트 중 어느 것이 와도 동일한 코드 포인트 시퀀스로 통합해주는 유니코드 정규화로 불리는 텍스트 정규화 절차를 정의한다. 정규화유니코드 정규화(Unicode normalization)는 모양이 같은 여러 문자들이 있을 경우 이를 기준에 따라 하나로 통합해 주는 일을 가리킨다. 그 기준으로는 아래 표와 같이 NFD, NFC, NFKD, NFKC가 있다.
정규화의 예
같이 보기각주
외부 링크 |
Index:
pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve
Portal di Ensiklopedia Dunia