달력

52024  이전 다음

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

Report on Code system and Hangeul Character set

 

 

Table of Contents

1.  Introduction

2.  Code 체계

3.  한글 Character Set

4.  Problem Definitions

5.  Conclusion

 

1.      Introduction

Home Page, E-mail, Java 등을 사용하다 보면 Unicode (ISO/IEC 10646) 부호계를 알지 못하면 그런데서 한글을 사용하기가 불편해 진다. ISO/IEC 10646 국제 표준 부호계와 한글 부호계에 대하여 살펴 보고자 한다. 또한 E-mail에서 많이 쓰이는 Quoted Printable (QP) Base64 살펴 , UTF-16, UTF-8, UTF-7 각종 UTF 대하여 살펴본다. ISO/IEC 10646 KS X 1005-1 (과거 KS C 5700)으로 받아 들였는데, 이에 대한 소개도 더붙인다. 현재 Internet E-mail 등에서는 한글 완성형 KS X 1001 ASCII (KS X 1003) 같이 , MIME charset 이름으로 EUC-KR 쓰고 있는데, EUC-KR 이라는 MIME charset KS C 5601 대하여도 살펴보며, 이러한 code체계가 한글에 미치는 영향과 문제점들을 정리하였다.

 

2.      Code 체계

정보 처리 분야의 규격이 늘어나게 데는 국제 표준 기구의 영향이 크다. 1987년에 ISO(International Organization for Standardization) TC97 IEC(International Electrotechnical Commission ) TC83 공동으로 ISO/IEC JTC1 (Joint Technical Committee 1) 만들면서 정보 처리 분야의 국내 규격이 많이 늘어나게 되었다.

1992 6-7월에 열린 ISO/IEC JTC1/SC2/WG2 22 회의에서 ISO/IEC 10646-1 국제 표준 (IS)으로 확정함에 따라서, 거기에 들어 있던 한글 부호계도 확정되게 되었다. ISO/IEC 10646 글자를 4 Byte 나타내는 4 Byte 부호계 (UCS-4) 시작하였으며, 전세계의 주요한 글자계를 거의 모두 나타 있다. [경석]

 

2.1      용어 정의

2.1.1     code (부호계)

code codeword 집합이라고 있다. ISO/IEC 10646 code에서 첫가끝 조합형 첫소리 글자 ㄱ의 codeword 0x0000 1100 된다.

2.1.2     Codeword(부호값)

code codeword 집합이다. 표준에 따라서는 codeword라는 용어 대신 ISO/IEC 10646 에서는 code position이라는 용어를 사용하고, Unicode에서는 code point라는 용어를 쓰며, 다른 곳에서는 code element라는 용어를 사용하기도 하나 모두 같은 용어이다.

2.1.3     Plane

4 Byte code UCS-4에서 윗자리 16bit 값은 같고, 나머지 아래자리 16bit 다른 codeword 집합을 plane이라고 한다. Plane 하나에는 codeword 64K(65,536) 만큼 있게 되며, plane Group 번호와 Plane번호를 각각 hexadecimal 나타낸다. 예를 들면 BMP (Basic Multilingual Plane) 경우 G=00, P=00 된다.

 

BMP는 다시 4개의 영역으로 나누어 지는데 각 영역의 특징은 다음과 같다.

             A-zone: alphabetic and syllabic scripts together with various symbols

             I-zone: Chinese/Japanese/Korean (CJK) unified ideographs (unified East Asian ideographs)

             O-zone: reserved for future standardization

             R-zone: restricted use zone (private use characters, presentation forms, compatibility characters, etc.)

그림 1. BMP(Basic Multilingual Plane)

 

2.1.4     Group

4 Byte code UCS-4에서 윗자리 8bit 값은 같고, 나머지 아래자리 24bit 다른 codeword 집합을 group이라고 한다. group 하나에는 codeword 16M(1600) 만큼 있게 되며, group 번호는 hexadecimal 두개로 나타낸다. 우리가 알고 있는 대부분의 codeword 거의 모두 G=00이다.

 

2.2      ISO/IEC 10646-1

2.2.1     UCS-4 : 4Byte code

ISO/IEC 10646 표준의 이름은 Universal Multiple-Octet Coded Character Set (UCS)이다. UCS 처음에 4Byte code 시작하였는데, 이를 UCS-4라고 한다. , 글자는 4byte 쓰며, 따라서 hexadecimal 8개로 나타낸다.

한글 첫가끝 조합형 첫소리 글자 codeword 0x0000 1100이고, 가운뎃소리

'JAVA > JSP_Servlet' 카테고리의 다른 글

[펌] 메일 헤더 구성 요소  (0) 2005.01.17
[펌] [MAIL] MIME 관련  (0) 2005.01.17
[펌] http RFC  (0) 2005.01.17
[펌]Single Sign On...  (0) 2005.01.17
JSP 다운로드시 헤더 ㅡㅡ  (0) 2005.01.13
Posted by tornado
|