일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- leetcode
- 캐치카페
- 코로나19
- 금융문자분석경진대회
- 자연어처리
- Docker
- 파이썬
- hackerrank
- ubuntu
- ChatGPT
- Git
- 우분투
- 편스토랑
- dacon
- Kaggle
- 프로그래머스
- 더현대서울 맛집
- 맥북
- github
- Real or Not? NLP with Disaster Tweets
- SW Expert Academy
- programmers
- 프로그래머스 파이썬
- AI 경진대회
- Baekjoon
- gs25
- 데이콘
- 편스토랑 우승상품
- 백준
- PYTHON
- Today
- Total
솜씨좋은장씨
[Python] pdf2image 라이브러리를 활용하여 pdf파일 이미지로 변환하는 방법 본문

이 글에서는 pdf2image 라이브러리를 활용하여 pdf 파일을 image로 변환하는 방법에 대해서 적어보려 합니다.
먼저 pdf 파일목록을 os 를 활용하여 받아옵니다.
import os
file_list = os.listdir("./source/")
저는 source 디렉토리에 3개의 pdf 파일을 담아두었기에
os의 listdir을 활용하여 ./source/ 디렉토리의 파일 목록을 가져왔습니다.
file_list
['TA_클러스터링_핵심어추출.pdf',
'Word_Embedding_자질을_이용한_한국어_개체명_인식_및_분류.pdf',
'journal_ktsde_9-4_752015269.pdf']
from pdf2image import convert_from_path
for file_name in file_list:
pages = convert_from_path("./source/" + file_name)
for i, page in enumerate(pages):
page.save("./source/"+file_name+str(i)+"jpg", "JPEG")
convert_from_path를 활용하여 파일을 열어주고
각 페이지 별로 파일이름 + 숫자 .jpg 로 저장해줍니다.

PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
만약 진행하면서 위와 같은 오류가 발생하는 경우에는 아래의 링크를 참고하기 바랍니다.
[Python] PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? 해결방법
Python에서 pdf2image 라이브러리를 활용하여 pdf를 이미지로 변경하려는 코드를 실행하려고하니 아래와 같은 오류가 발생하였습니다. from pdf2image import convert_from_path pages = convert_from_path("./so..
somjang.tistory.com
pdf 파일 말고 한글 파일( .hwp )을 이미지를 바꾸고 싶은 분은 아래의 링크를 참고 부탁드립니다.
[Python] Python을 활용하여 대량의 한글 파일(hwp) 썸네일 편하게 만들어보기!
최근 약 3만개의 한글파일을 첫페이지를 이미지로 500x707크기의 썸네일을 만들어야하는 일이 있었습니다. 30개의 파일이었으면 귀찮더라도 그냥 모든 파일을 하나하나 열어서 첫 페이지를 이미
somjang.tistory.com
읽어주셔서 감사합니다.
'Programming > Python' 카테고리의 다른 글
[Python] Mac 에서 한글로 된 파일 경로 문제없이 사용하는 방법 (0) | 2020.12.15 |
---|---|
[Python] datetime을 활용하여 코드 소요시간 측정하기 (0) | 2020.12.06 |
[Python] PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? 해결방법 (0) | 2020.12.01 |
[Python] Pandas ValueError: cannot reindex from a duplicate axis 원인과 해결방법 (0) | 2020.11.09 |
[Python] Python을 활용하여 대량의 한글 파일(hwp) 썸네일 편하게 만들어보기! (2) | 2020.11.04 |