관리 메뉴

솜씨좋은장씨

[Python] pdf2image 라이브러리를 활용하여 pdf파일 이미지로 변환하는 방법 본문

Programming/Python

[Python] pdf2image 라이브러리를 활용하여 pdf파일 이미지로 변환하는 방법

솜씨좋은장씨 2020. 12. 1. 21:10
728x90
반응형

이 글에서는 pdf2image 라이브러리를 활용하여 pdf 파일을 image로 변환하는 방법에 대해서 적어보려 합니다.

 

먼저 pdf 파일목록을 os 를 활용하여 받아옵니다.

import os

file_list = os.listdir("./source/")

저는 source 디렉토리에 3개의 pdf 파일을 담아두었기에

os의 listdir을 활용하여 ./source/ 디렉토리의 파일 목록을 가져왔습니다.

file_list
['TA_클러스터링_핵심어추출.pdf',
 'Word_Embedding_자질을_이용한_한국어_개체명_인식_및_분류.pdf',
 'journal_ktsde_9-4_752015269.pdf']
from pdf2image import convert_from_path
for file_name in file_list:
    pages = convert_from_path("./source/" + file_name)
    
    for i, page in enumerate(pages):
        page.save("./source/"+file_name+str(i)+"jpg", "JPEG")

convert_from_path를 활용하여 파일을 열어주고

각 페이지 별로 파일이름 + 숫자 .jpg 로 저장해줍니다.

PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

만약 진행하면서 위와 같은 오류가 발생하는 경우에는 아래의 링크를 참고하기 바랍니다.

 

[Python] PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? 해결방법

Python에서 pdf2image 라이브러리를 활용하여 pdf를 이미지로 변경하려는 코드를 실행하려고하니 아래와 같은 오류가 발생하였습니다. from pdf2image import convert_from_path pages = convert_from_path("./so..

somjang.tistory.com

 

pdf 파일 말고 한글 파일( .hwp )을 이미지를 바꾸고 싶은 분은 아래의 링크를 참고 부탁드립니다.

 

[Python] Python을 활용하여 대량의 한글 파일(hwp) 썸네일 편하게 만들어보기!

최근 약 3만개의 한글파일을 첫페이지를 이미지로 500x707크기의 썸네일을 만들어야하는 일이 있었습니다. 30개의 파일이었으면 귀찮더라도 그냥 모든 파일을 하나하나 열어서 첫 페이지를 이미

somjang.tistory.com

읽어주셔서 감사합니다.

Comments