Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 코로나19
- dacon
- Real or Not? NLP with Disaster Tweets
- 프로그래머스
- 편스토랑
- 우분투
- 백준
- SW Expert Academy
- AI 경진대회
- github
- hackerrank
- 더현대서울 맛집
- 금융문자분석경진대회
- Git
- 맥북
- gs25
- ChatGPT
- programmers
- 파이썬
- Kaggle
- 자연어처리
- Docker
- leetcode
- 편스토랑 우승상품
- 데이콘
- 캐치카페
- 프로그래머스 파이썬
- PYTHON
- Baekjoon
- ubuntu
Archives
- Today
- Total
솜씨좋은장씨
[Python] 문자열의 인코딩을 확인하는 방법 본문
728x90
반응형
Python에서 문자열을 다루다보면
특히 한글이 포함된 문자열을 다루게 되면
종종 아래와 같은 에러코드를 만나며 인코딩 문제로 애를 먹는 경우가 많이 있습니다.
UnicodeEncodeError: 'cp949' codec can't encode character '\xa0'
in position 17678: illegal multibyte sequence
위와 같은 문제를 만났을 때
내가 지금 다루고 있는 문자열 또는 파일속의 데이터가 어떤 인코딩을 사용하는지 확인하고 싶을 경우
방법은 다음과 같습니다.
필요 라이브러리 설치
먼저 인코딩을 확인하기 위해 필요한 chardet 라이브러리를 설치합니다.
$ pip install chardet
사용 방법
문자열의 경우
import chardet
string = "솜씨좋은장씨"
print(chardet.detect(string.encode()))
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
파일의 경우
import chardet
with open("file.txt", "r") as f:
file_data = f.readline()
print(chardet.detect(file_data.encode()))
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
위와 같이 사용하여 해당 문자열 또는 파일 데이터의 인코딩을 확인하면 됩니다.
지원하는 인코딩 종류
ASCII, UTF-8, UTF-16 (2 변형), UTF-32 (4 변형)
Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (중국어 번체 및 간체)
EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (일본어)
EUC-KR, ISO-2022-KR (한국어)
KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (키릴 문자)
ISO-8859-2, windows-1250 (헝가리어)
ISO-8859-5, windows-1251 (불가리아어)
windows-1252 (영어)
ISO-8859-7, windows-1253 (그리스어)
ISO-8859-8, windows-1255 (시각적 및 논리적 히브리어)
TIS-620 (태국)
읽어주셔서 감사합니다.
'Programming > Python' 카테고리의 다른 글
[Python] PIL(Pillow) 라이브러리를 활용하여 이미지 resize 시 깨지지 않게 저장하는 방법! (0) | 2020.11.04 |
---|---|
[Python] str 형식의 list 문자열 list 형식으로 변환하는 방법 ( str list to list python ) (6) | 2020.11.02 |
[Python] Selenium webdriver를 python 코드로 쉽게 설치하는 방법 (0) | 2020.09.21 |
[Python] Folium 한글 깨짐 현상 해결하기 (0) | 2020.09.21 |
[Python] 이중 for 문 한 줄로 작성하는 방법 (11) | 2020.09.15 |
Comments