유니코드 (영어 : Unicode , 정식 명칭 The Unicode Standard )는 전 세계의 모든 문자를 컴퓨터 에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준 이다. 유니코드는 유니코드 협회(Unicode Consortium )가 제정한다. 또한 이 표준에는 ISO 10646 문자 집합 , 문자 인코딩 , 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등을 포함하고 있다.
또한 유니코드의 목적은 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것이다. 기존의 인코딩들은 그 규모나 범위 면에서 한정되어 있고, 다국어 환경에서는 서로 호환되지 않는 문제점이 있었다. 유니코드가 다양한 문자 집합들을 통합하는 데 성공하면서 유니코드는 컴퓨터 소프트웨어 의 국제화와 지역화 에 널리 사용되게 되었으며, 비교적 최근의 기술인 XML , 자바 , 그리고 최신 운영 체제 등에서도 지원하고 있다.
유니코드에서 한국어 발음을 나타날 때는 예일 로마자 표기법 의 변형인 ISO/TR 11941 을 사용하고 있다.
기원 및 개발
유니코드의 기원은 1987년으로 거슬러 올라가며, 이때 제록스 의 조 베커와 애플 의 리 콜린스, 마크 데이비스가 통일된 문자 집합을 만드는 것을 탐구하기 시작하였다.[ 1] 1988년 조 베커는 유니코드라는 이름의 국제/다언어 문자 인코딩 시스템(international/multilingual text character encoding system, tentatively called Unicode)를 위한 초안을 출판하였다.
버전
유니코드 버전
버전
날짜
책
대응하는 ISO/IEC 10646 버전
문자 집합 수
글자들
전체[ 2]
주요 추가 사항
1.0.0
1991년 10월
ISBN 0-201-56788-1 (Vol.1)
24
7,161
가타카나 , 구르무키 문자 , 구자라트 문자 , 그리스 문자 , 데바나가리 , 라오 문자 , 라틴 문자 , 말라얄람 문자 , 벵골 문자 , 아랍 문자 , 아르메니아 문자 , 오리야 문자 , 조지아 문자 , 주음부호 , 칸나다 문자 , 키릴 문자 , 타밀 문자 , 타이 문자 , 텔루구 문자 , 티베트 문자 , 한글 , 히라가나 , 히브리 문자 [ 3]
1.0.1
1992년 6월
ISBN 0-201-60845-6 (Vol.2)
25
28,359
20,902자의 한중일 통합 한자 가 지정됨.[ 4]
1.1
1993년 6월
ISO/IEC 10646-1:1993
24
34,233
기존 2,350자의 한글 에 4,306자가 더 추가됨. 티베트 문자 삭제.[ 5]
2.0
1996년 7월
ISBN 0-201-48345-9
ISO/IEC 10646-1:1993과 개정 5, 6, 7
25
38,950
기존의 한글 글자마디를 삭제하고, 11,172자의 새 한글 완성자 영역을 새로 지정함. 티베트 문자 새 위치에 추가. 서러게이트 영역을 지정하였고, 제15, 제16평면을 사용자 정의 영역 으로 지정함.[ 6]
2.1
1998년 5월
ISO/IEC 10646-1:1993과 개정 5, 6, 7, 18
25
38,952
유로 기호 추가.[ 7]
3.0
1999년 9월
ISBN 0-201-61633-5
ISO/IEC 10646-1:2000
38
49,259
룬 문자 , 몽골 문자 , 버마 문자 , 시리아 문자 , 신할라 문자 , 에티오피아 문자 , 오검 , 이 문자 , 점자 , 체로키 문자 , 캐나다 원주민 음절 문자 , 크메르 문자 , 타나 문자 [ 8]
3.1
2001년 3월
ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001
41
94,205
고대 이탈리아 문자 , 고트 문자 , 데저렛 문자 와 음악 기호 , 42,711자의 한중일 통합 한자 .[ 9]
3.2
2002년 3월
ISO/IEC 10646-1:2000과 개정 1
ISO/IEC 10646-2:2001
45
95,221
부히드 문자 , 하누노오 문자 , 타갈로그 문자 , 타그반와 문자 등 필리핀 문자[ 10]
4.0
2003년 4월
ISBN 0-321-18578-1
ISO/IEC 10646:2003
52
96,447
키프로스 문자 , 림부 문자 , 선형 B 문자 , 오스마냐 문자 , 샤비안 문자 , 타이 러 문자 , 우가리트 문자 와 64괘 [ 11]
4.1
2005년 3월 31일
ISO/IEC 10646:2003과 개정 1
59
97,720
부기 문자 , 글라골 문자 , 카로슈티 문자 , 신 타이 르 문자 , 고대 페르시아 문자 , 실헤티 나가리 , 티피나그 추가, 콥트 문자 가 그리스 문자에서 분리. 고대 그리스 숫자 와 고대 그리스 음악 기호 추가.[ 12]
5.0
2006년 7월 18일
ISBN 0-321-48091-0
ISO/IEC 10646:2003과 개정 1, 2, 그리고 개정 3의 문자 4개
64
99,089
발리 문자 , 쐐기 문자 , 응코 문자 , 파스파 문자 , 페니키아 문자 [ 13]
5.1
2008년 4월 4일
ISO/IEC 10646:2003과 개정 1, 2, 3, 4
75
100,713
카리 문자 , 참 문자 , 카야흐 리 문자 , 렙차 문자 , 리키아 문자 , 리디아 문자 , 올치키 문자 , 레장 문자 , 사우라슈트라 문자 , 순다 문자 , 바이 문자 , 파이스토스 원반 의 기호, 마작 타일과 도미노 타일 추가, 대문자 ß 추가.[ 14]
5.2
2009년 10월 1일
ISBN 978-1-936213-00-9
ISO/IEC 10646:2003과 개정 1, 2, 3, 4, 5, 6
90
107,361
문자 15종류 추가, 4149자의 한중일 통합 한자 (CJK-C), 옛 한글 확장 자모 추가.[ 15]
6.0
2010년 10월 11일
ISBN 978-1-936213-01-6
ISO/IEC 10646:2010과 인도 루피 기호
93
109,449
문자 3종류 추가, 플레잉카드 기호, 교통 및 지도 기호, 연금술 기호 , 이모티콘 과 에모지 . 222자의 한중일 통합 한자 (CJK-D) 추가.[ 16]
6.1
2012년 1월 31일
ISBN 978-1-936213-02-3
ISO/IEC 10646:2012
100
110,181
문자 7종류[ 17]
6.2
2012년 9월 27일
ISBN 978-1-936213-07-8
ISO/IEC 10646:2012와 터키 리라 기호
100
110,182
터키 리라 기호[ 18]
6.3
2013년 9월 30일
ISBN 978-1-936213-08-5
ISO/IEC 10646:2012와 여섯 문자
100
110,187
좌서/우서 형식 문자 5자[ 19]
7.0
2014년 6월 16일
ISBN 978-1-936213-09-2
ISO/IEC 10646:2012와 개정 1, 2, 루블 기호
123
113,021
문자 23종류와 딩뱃[ 20]
8.0
2015년 6월 17일
ISBN 978-1-936213-10-8
ISO/IEC 10646:2014와 개정 1, 2, 조지아 라리 기호, 한중일 통합 한자 9자와 에모지 41자[ 21]
129
120,737
문자 6종류와 5771 한중일 통합 한자 (CJK-E), 체로키 소문자 , 피부색 조정자 5자[ 22]
9.0
2016년 6월 21일
ISBN 978-1-936213-13-9
ISO/IEC 10646:2014와 개정 1, 2, 아들람, 네와 문자, 일본 텔레비전 심벌, 74자의 에모지와 심벌[ 23]
135
128,237
서하 문자 등 6종의 문자와 에모지 72자[ 24]
10.0
2017년 6월 20일
ISBN 978-1-936213-16-0
ISO/IEC 10646:2016과 개정 1, 2, 헨타이가나 , 한중일 통합 한자 21자와 에모지 56자[ 25]
139
136,755
소욤보문자 등 4종의 문자와 한중일 통합 한자 (CJK-F)[ 26]
11.0
2018년 6월 6일
ISBN 978-1-936213-19-1
ISO/IEC 10646:2017과 개정 1, 2, 도그라 문자 등 8종, 한중일 통합 한자 5자와 에모지 145자[ 27]
146
137,439
도그라 문자 등 8종의 문자와 에모지 145자[ 28]
12.0
2019년 3월 5일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2017과 개정 1, 2와 62개 추가 문자[ 29]
150
137,993
엘리마이스 문자 등 4종과 일본어 고어에 쓰인 소형 히라가나 와 가타카나 등, 에모지 61자[ 30]
12.1
2019년 5월 7일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2017과 개정 1, 2와 63개 추가 문자
150
137,994
레이와 연호 사각문자[ 31]
13.0
2020년 3월 10일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2020과 개정
154
143,859
호라즘 문자 , 디베스 아쿠루 , 거란 문자 소문자, 예즈드 문자 , 한중일 통합 한자 (CJK-G), 하우사 문자 , 월로프 문자 , 힌디코 문자 , 펀자브 문자 , 에모지 55자[ 32]
14.0
2021년 9월 22일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2021과 개정
159
144,697
토토 문자 , 키프로 미노안 , 비트쿠키 문자, 고대 위구르 문자 , 라틴 문자 (확장F, 확장G) 등[ 33]
15.0
2022년 9월 13일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2022와 개정
166
149,186
카위 문자 , 나그 문다리 , 카토빅 숫자 , 아랍 문자 (확장C), 데바나가리 문자 (확장A), 한중일 통합 한자 (CJK-H) 등[ 34]
15.1
2023년 9월 12일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2023과 개정
167
149,813
한중일 통합 한자 (CJK-I)[ 35]
16.0
2024년 9월 10일
ISBN 978-1-936213-22-1
ISO/IEC 10646:2024 개정
168
154,998
가라이 문자 , 구룽 케마 , 키라트 라이 , 올 오날 , 수누와르 문자 , 토드리 문자 , 툴루 티갈라리 [ 36]
유니코드 목록
유니코드 변환 형식과 국제 문자 세트
유니코드는 2가지 매핑 방식이 있다: 유니코드 변환 형식(Unicode Transformation Format, UTF) 인코딩, 국제 문자 세트 (Universal Coded Character Set, UCS) 인코딩.
UTF 인코딩은 다음을 포함한다.
같이 보기
각주
외부 링크