... | @@ -247,7 +247,7 @@ UTF-8은 8비트로 표현하는 방식이다. UTF-16은 주로 사용되는 BMP |
... | @@ -247,7 +247,7 @@ UTF-8은 8비트로 표현하는 방식이다. UTF-16은 주로 사용되는 BMP |
|
|U+10000 ~ U+1FFFFF|21|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|
|
|
|U+10000 ~ U+1FFFFF|21|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|
|
|
|
|
|
|
위의 표에서 x로 표시된 부분에는 원래의 비트값을 순서대로 적는다.
|
|
위의 표에서 x로 표시된 부분에는 원래의 비트값을 순서대로 적는다.
|
|
그래서 ASCII 영역(U+0000 ~ U+007F) 내의 문자인 알파벳 같은 경우는 1바이트 인코딩, 한글은 완성형은 AC00 ~ D7AF 영역에 매핑되어 있기때문에 UTF-8로 인코딩하면 3바이트로 인코딩이 된다. 주로 웹이나 DB에서 많이 사용된다.
|
|
그래서 ASCII 영역(U+0000 ~ U+007F) 내의 문자인 알파벳 같은 경우는 1바이트 인코딩, 한글 완성형은 AC00 ~ D7AF 영역에 매핑되어 있기때문에 UTF-8로 인코딩하면 3바이트로 인코딩이 된다. 주로 웹이나 DB에서 많이 사용된다.
|
|
<br />
|
|
<br />
|
|
* **BOM**
|
|
* **BOM**
|
|
바이트 순서 표식(Byte Order Mark, BOM)은 유니코드에서 엔디안을 구별하기 위해 사용되는 문자로, 코드 포인트는 U+FEFF이다. (아랍어 표현꼴 마지막 문자로 할당되어 있다. 아랍어와의 특별한 상관관계는 없다.) 엔디안은 바이트를 배열하는 방법을 말하며, 큰 단위가 앞에 나오는 빅 엔디안과 작은 단위가 앞에 나오는 리틀 엔디안으로 나눌 수 있다.
|
|
바이트 순서 표식(Byte Order Mark, BOM)은 유니코드에서 엔디안을 구별하기 위해 사용되는 문자로, 코드 포인트는 U+FEFF이다. (아랍어 표현꼴 마지막 문자로 할당되어 있다. 아랍어와의 특별한 상관관계는 없다.) 엔디안은 바이트를 배열하는 방법을 말하며, 큰 단위가 앞에 나오는 빅 엔디안과 작은 단위가 앞에 나오는 리틀 엔디안으로 나눌 수 있다.
|
... | | ... | |