Report on Code system and Hangeul Character set
Table of Contents
1. Introduction
2. Code 체계
3. 한글 Character Set
4. Problem Definitions
5. Conclusion
1. Introduction
Home Page, E-mail, Java 등을 사용하다 보면 Unicode (ISO/IEC 10646) 부호계를 알지 못하면 그런데서 한글을 사용하기가 불편해 진다. ISO/IEC 10646 국제 표준 부호계와 한글 부호계에 대하여 살펴 보고자 한다. 또한 E-mail에서 많이 쓰이는 Quoted Printable (QP)와 Base64를 살펴 본 뒤, UTF-16, UTF-8, UTF-7 등 각종 UTF에 대하여 살펴본다. ISO/IEC 10646을 KS X 1005-1 (과거 KS C 5700)으로 받아 들였는데, 이에 대한 소개도 더붙인다. 현재 Internet E-mail 등에서는 한글 완성형 KS X 1001과 ASCII (KS X 1003)을 같이 쓸 때, MIME charset 이름으로 EUC-KR을 쓰고 있는데, EUC-KR 이라는 MIME charset와 KS C 5601에 대하여도 살펴보며, 이러한 code체계가 한글에 미치는 영향과 문제점들을 정리하였다.
2. Code 체계
정보 처리 분야의 규격이 늘어나게 된 데는 국제 표준 기구의 영향이 크다. 1987년에 ISO(International Organization for Standardization)의 TC97과 IEC(International Electrotechnical Commission )의 TC83이 공동으로 ISO/IEC JTC1 (Joint Technical Committee 1)을 만들면서 정보 처리 분야의 국내 규격이 많이 늘어나게 되었다.
1992년 6-7월에 열린 ISO/IEC JTC1/SC2/WG2 제22차 회의에서 ISO/IEC 10646-1을 국제 표준 (IS)으로 확정함에 따라서, 거기에 들어 있던 한글 부호계도 확정되게 되었다. ISO/IEC 10646은 한 글자를 4 Byte로 나타내는 4 Byte 부호계 (UCS-4)로 시작하였으며, 전세계의 주요한 글자계를 거의 모두 나타 낼 수 있다. [
2.1 용어 정의
2.1.1 code (부호계)
code는 codeword의 집합이라고 할 수 있다. ISO/IEC 10646 code에서 첫가끝 조합형 첫소리 글자 ㄱ의 codeword는 0x0000 1100이 된다.
2.1.2 Codeword(부호값)
code는 codeword의 집합이다. 표준에 따라서는 codeword라는 용어 대신 ISO/IEC 10646 에서는 code position이라는 용어를 사용하고, Unicode에서는 code point라는 용어를 쓰며, 다른 곳에서는 code element라는 용어를 사용하기도 하나 모두 다 같은 용어이다.
2.1.3 Plane
4 Byte code인 UCS-4에서 윗자리 16bit 값은 같고, 나머지 아래자리 16bit가 다른 codeword의 집합을 plane이라고 한다. Plane 하나에는 codeword가 64K(65,536)개 만큼 있게 되며, plane은 Group 번호와 Plane번호를 각각 hexadecimal로 나타낸다. 예를 들면 BMP (Basic Multilingual Plane) 인 경우 G=00, P=00이 된다.
BMP는 다시 4개의 영역으로 나누어 지는데 각 영역의 특징은 다음과 같다.
A-zone: alphabetic and syllabic scripts together with various symbols
I-zone: Chinese/Japanese/Korean (CJK) unified ideographs (unified East Asian ideographs)
O-zone: reserved for future standardization
R-zone: restricted use zone (private use characters, presentation forms, compatibility characters, etc.)
그림 1. BMP(Basic Multilingual Plane)
2.1.4 Group
4 Byte code인 UCS-4에서 윗자리 8bit 값은 같고, 나머지 아래자리 24bit가 다른 codeword의 집합을 group이라고 한다. group 하나에는 codeword가 16M(약1600만)개 만큼 있게 되며, group 번호는 hexadecimal 두개로 나타낸다. 우리가 알고 있는 대부분의 codeword는 거의 모두 G=00이다.
2.2 ISO/IEC 10646-1
2.2.1 UCS-4 : 4Byte code
ISO/IEC 10646 표준의 이름은 Universal Multiple-Octet Coded Character Set (UCS)이다. UCS는 처음에 4Byte code로 시작하였는데, 이를 UCS-4라고 한다. 즉, 한 글자는 4byte를 쓰며, 따라서 hexadecimal 8개로 나타낸다.
한글 첫가끝 조합형 첫소리 글자 “ㄱ”의 codeword는 0x0000 1100이고, 가운뎃소리
'JAVA > JSP_Servlet' 카테고리의 다른 글
[펌] 메일 헤더 구성 요소 (0) | 2005.01.17 |
---|---|
[펌] [MAIL] MIME 관련 (0) | 2005.01.17 |
[펌] http RFC (0) | 2005.01.17 |
[펌]Single Sign On... (0) | 2005.01.17 |
JSP 다운로드시 헤더 ㅡㅡ (0) | 2005.01.13 |