ASCII와 UTF-8 무엇이 다를까?
인코딩이란, 문자를 컴퓨터가 이해할 수 있는 숫자로 변환하는 방식이다. ASCII와 UTF-8은 대표적인 문자 인코딩 방식이지만, 표현할 수 있는 문자 범위와 구조에서 큰 차이가 있다.
ASCII란?
ASCII는 영문알파벳, 숫자, 특수문자를 8비트로 표현하는 인코딩 방식이다.
- A → 01000001 (65)
- a → 01100001 (97)
- 1 → 00110001 (49)
영어 이외의 문자를 표현할 수 없다는 단점이 있다
UTF-8이란?
UTF-8은 전 세계 모든 문자를 표현할 수 있는 인코딩 방식으로, 가변길이(1~4바이트)를 사용한다
- A → 01000001 (65) (ASCII와 동일)
- 가 → 11101100 10110000 10000000 (234,176,128)
- 😃 → 11110000 10011111 10011000 10000011 (240,159,152,131)
일부 분자는 ASCII보다 용량이 커질 수 있다.
"UTF-8로 저장되어 있다"는 뜻은?
어떤 정보가 UTF-8로 저장되어 있다는 것은 해당 데이터가 UTF-8 인코딩 방식으로 디스크나 메모리에 저장되어있음을 의미한다. 텍스트파일, 데이터베이스, 웹 페이지 등이 UTF-8 인코딩으로 저장되어있다면, 내부적으로 각 문자가 UTF-8의 규칙에 따라 1~4바이트 형태로 저장된 것이다.
ASCII vs UTF-8 어떤 걸 써야 할까?
한글, 이모지, 특수문자를 사용해야 한다면 무조건 UTF-8! UTF-8을 사용하면 ASCII도 자연스럽게 포함된다(ASCII는 UTF-8의 하위집합)
'지식창고' 카테고리의 다른 글
TCP 연결 설정과 종료 과정 (0) | 2025.03.30 |
---|---|
HTTP 요청 메세지 분석 (0) | 2025.03.29 |