Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Real or Not? NLP with Disaster Tweets
- Kaggle
- programmers
- PYTHON
- 파이썬
- Docker
- AI 경진대회
- ChatGPT
- 금융문자분석경진대회
- hackerrank
- Git
- 우분투
- 코로나19
- 편스토랑 우승상품
- ubuntu
- 맥북
- Baekjoon
- 편스토랑
- 자연어처리
- dacon
- SW Expert Academy
- 데이콘
- github
- 프로그래머스
- 캐치카페
- 백준
- leetcode
- gs25
- 더현대서울 맛집
- 프로그래머스 파이썬
Archives
- Today
- Total
솜씨좋은장씨
[Python] pdf2image 라이브러리를 활용하여 pdf파일 이미지로 변환하는 방법 본문
728x90
반응형
이 글에서는 pdf2image 라이브러리를 활용하여 pdf 파일을 image로 변환하는 방법에 대해서 적어보려 합니다.
먼저 pdf 파일목록을 os 를 활용하여 받아옵니다.
import os
file_list = os.listdir("./source/")
저는 source 디렉토리에 3개의 pdf 파일을 담아두었기에
os의 listdir을 활용하여 ./source/ 디렉토리의 파일 목록을 가져왔습니다.
file_list
['TA_클러스터링_핵심어추출.pdf',
'Word_Embedding_자질을_이용한_한국어_개체명_인식_및_분류.pdf',
'journal_ktsde_9-4_752015269.pdf']
from pdf2image import convert_from_path
for file_name in file_list:
pages = convert_from_path("./source/" + file_name)
for i, page in enumerate(pages):
page.save("./source/"+file_name+str(i)+"jpg", "JPEG")
convert_from_path를 활용하여 파일을 열어주고
각 페이지 별로 파일이름 + 숫자 .jpg 로 저장해줍니다.
PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
만약 진행하면서 위와 같은 오류가 발생하는 경우에는 아래의 링크를 참고하기 바랍니다.
pdf 파일 말고 한글 파일( .hwp )을 이미지를 바꾸고 싶은 분은 아래의 링크를 참고 부탁드립니다.
읽어주셔서 감사합니다.
'Programming > Python' 카테고리의 다른 글
[Python] Mac 에서 한글로 된 파일 경로 문제없이 사용하는 방법 (0) | 2020.12.15 |
---|---|
[Python] datetime을 활용하여 코드 소요시간 측정하기 (0) | 2020.12.06 |
[Python] PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? 해결방법 (0) | 2020.12.01 |
[Python] Pandas ValueError: cannot reindex from a duplicate axis 원인과 해결방법 (0) | 2020.11.09 |
[Python] Python을 활용하여 대량의 한글 파일(hwp) 썸네일 편하게 만들어보기! (2) | 2020.11.04 |
Comments