일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 캐치카페
- 편스토랑 우승상품
- Git
- 데이콘
- Real or Not? NLP with Disaster Tweets
- 자연어처리
- Baekjoon
- SW Expert Academy
- ChatGPT
- PYTHON
- AI 경진대회
- 백준
- 프로그래머스
- 더현대서울 맛집
- 우분투
- hackerrank
- Kaggle
- dacon
- 금융문자분석경진대회
- 파이썬
- 프로그래머스 파이썬
- programmers
- github
- ubuntu
- gs25
- 편스토랑
- leetcode
- Docker
- 맥북
- 코로나19
- Today
- Total
목록
반응형
크롤링 (5)
솜씨좋은장씨
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/zOsZr/btq3mOjqKDl/Bp9dYXd3uK3vqHK2kpqfj1/img.jpg)
이번 글에서는 Python과 Selenium을 활용하여 인스타그램 게시물을 크롤링하는 방법에 대해서 적어보려 합니다. 해당 코드를 활용하여 발생하는 문제는 코드 사용자에게 있음을 알려드립니다. % 현재 아래의 방법을 활용한다고 하여 게시물을 무한으로 크롤링 할 수 있지는 않습니다. 개인 PC사양, 네트워크 환경에 따라서 같은 코드여도 크롤링 할 수 있는 게시물의 개수가 달라짐을 알려드립니다. 제 환경 ( MacBook Pro 2017 13인치 - 4 Thunderbolt Ports 8GB + 500Mbps 인터넷 ) 에서는 약 10,000개 정도 까지 가능했습니다. dmkym 님 댓글 남겨주셔서 감사합니다~👍 % 2021년 7월 기준 인스타그램 측에서 사람이 손으로 게시물을 클릭하여 접근하여도 일정 게시..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cPt1ca/btqI6OpV08a/Znmj08okbhpsn1vLPKvQR0/img.png)
가끔씩 데이터를 수집하기 위해서 Python으로 Selenium 을 활용한 크롤링 코드를 작성하고 실행하려하면! 새롭게 세팅한 개발환경이라 webdriver가 아직 존재하지 않거나 기존 컴퓨터에서 사용하고 있는 Chrome( 크롬 )의 버전이 업데이트 되어 기존에 사용하던 webdriver가 버전이 맞지않아 사용이 불가한 경우 직접 Chrome 버전이 무엇인지 확인 후 webdriver를 다운받는 홈페이지로 이동하여 직접 현재 버전에 맞는 파일을 다운로드 받아 사용해야 해서 번거로움이 많았습니다. 여러 페이지의 크롤러를 만들면서 이를 하나로 묶어서 패키지화를 하면 어떨까 고민하던 중 매번 다운로드 받아야하는 webdriver를 python 코드를 활용해 자동으로 설치해주면 어떨까? 라는 생각이 들었고 이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sgCFD/btqyM2xyXut/Ix1OVq1nK0Ui7i1ol9lq90/img.png)
1. 주제를 선택한 계기 특정 프랜차이즈에 관련된 최근 키워드를 알려주려면 어떤 것을 참고하면 좋을까 생각하다가 인스타그램에 걸려있는 특정 주제에 대한 여러 태그들을 크롤링하여 그 태그들을 빈도수로 정렬하여 보여주면 어떨까 생각해보았고 보여줄때 그냥 글자, 빈도수 이렇게 보여주면 재미 없으니 워드클라우드로 그려서 보여주면 어떨까 생각하여 일단 한번 해서 확인해보자라는 생각으로 해보게 되었습니다. 2. 태그 크롤링 하기 군 생활을 하면서 부대 근처에 있어 자주 갔던 커피베이 태그를 검색해서 그 글 속에 있는 태그들을 크롤링 해보기로 했습니다. 크롬 개발자 도구를 활용하여 태그를 검색하고 나오는 그 페이지의 코드를 확인해보니 클릭하지 않는 이상 각각의 게시글에 있는 태그를 가져올 수 없었습니다. Seleni..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bPHbfC/btqyEzIsRlL/NFgqwJI1OokyWLq0LkHiaK/img.png)
과거의 영화 줄거리, 평점, 장르 데이터를 가지고 새로운 영화의 평점을 예측하는 모델을 만들 때 학습데이터로 사용하기 위한 데이터들을 크롤링해오기 위한 코드를 짜 보았습니다. 데이터를 수집하기 위한 크롤러를 제작하는데에는 Selenium, BeautifulSoup 그리고 requests를 사용했습니다. 네이버 영화에서 데이터를 수집해오기는 해야하나 순차적으로 데이터를 가져올 수 있도록 링크를 어디서 가져올까 고민하던 중 네이버 시리즈에 18812개의 영화 링크가 있는 페이지를 찾았습니다. 저는 이 페이지에서 판매순으로 가져오기로 했습니다. from bs4 import BeautifulSoup import requests from selenium import webdriver as wd from selen..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/GW0Z2/btqyh1SzMxz/Kk6C8pqy3Ns2qfQxfc4O7k/img.png)
1. 구글 크롬 최신으로 업데이트하기 먼저 크롬의 맨 우측 상단의 세 개의 점을 클릭하여 크롬의 설정페이지로 들어갑니다. 왼쪽 메뉴에서 Chrome 정보를 클릭하여 업데이트를 실시합니다. 다시시작을 클릭하여 업데이트를 완료합니다. 크롬의 버전을 기억합니다. 현재 이 글에서 크롬버전은 77.0.3865.75 입니다. 2. Selenium Chrome drirver 다운로드 아래의 링크로 이동하여 설치파일을 다운로드 받습니다. 2020년 확인결과 파일 다운로드 방법이 변경되어 다시 업데이트 하였습니다. SeleniumHQ Browser Automation If you want to create robust, browser-based regression automation suites and tests, sc..