... | @@ -219,7 +219,9 @@ UCS(Universal Character Set)는 ISO 10646으로 정의된 문자 인코딩의 |
... | @@ -219,7 +219,9 @@ UCS(Universal Character Set)는 ISO 10646으로 정의된 문자 인코딩의 |
|
#### 유니코드의 인코딩 방식
|
|
#### 유니코드의 인코딩 방식
|
|
여러 인코딩 방식이 있지만 주로 사용하는 UTF-8, UTF-16, UTF-32에 대해서 설명한다.
|
|
여러 인코딩 방식이 있지만 주로 사용하는 UTF-8, UTF-16, UTF-32에 대해서 설명한다.
|
|
* **UTF-32**
|
|
* **UTF-32**
|
|
UTF-32는
|
|
UTF-32는 32비트로 표현하는 방식이다. 모든 코드 포인트를 32비트에 1:1로 매칭하고, 남는 11개의 앞 비트는 모두 0으로 채운다.
|
|
|
|
인코딩한 값 자체가 코드 포인트이기 때문에 해당 유니코드 문자를 찾기 쉽다. UTF-8 이나 UTF-16에 비해서 공간을 많이 차지하기 때문에 메모리 공간에 큰 제약이 없거나 고정 길이 인코딩이 필요할 때 쓰인다. 주로 Unix 환경에서 문자열을 메모리에서 다룰 때 사용된다.
|
|
|
|
|
|
|
|
|
|
* **UTF-8**
|
|
* **UTF-8**
|
|
UTF-8은 기본 문자 표현에 1byte를 사용한다. 그리고 ASCII랑 호환이 가능하다. 이런 이유로 웹이나 DB에서는 주로 UTF-8을 쓴다. 그리고 NULL 문자가 나오지 않기 때문에 중간에 NULL 값이 있으면 문제가 될 수 있는 자료형에도 이용 가능하다. 알파벳 표현시에는 1byte로 표현하지만 한글은 3byte로 표현한다.
|
|
UTF-8은 기본 문자 표현에 1byte를 사용한다. 그리고 ASCII랑 호환이 가능하다. 이런 이유로 웹이나 DB에서는 주로 UTF-8을 쓴다. 그리고 NULL 문자가 나오지 않기 때문에 중간에 NULL 값이 있으면 문제가 될 수 있는 자료형에도 이용 가능하다. 알파벳 표현시에는 1byte로 표현하지만 한글은 3byte로 표현한다.
|
... | | ... | |