268일차 셀레니움(Selenium) - 나무위키 크롤링 (1)
2021. 9. 23. 17:03ㆍDiary/201~300
소스코드는 단순한데.. 은근 시간이 오래걸린다.. 숙련도가 낮아서 그런가보다. 시행착오를 계속 하고 있는 중이다.
이제 저 코드를 통해서 엑셀파일 a, b, c ... 을 만들고, 그에 따라서 상세 내용들을 링크를 통해 크롤링해서 채우는 형식으로 할 예정인데..
처음에는 링크를 하이퍼링크로 주고, 텍스트를 링크로 바꿨더니 value값이 제대로 안떨어지고 재가공을 해줘야하는 귀찮음이 생겨서 그냥 생짜 링크주소로 박아넣었다.
그리고, 지금 계속 시간을 허비한게, 클라우드플레어(cloudflare)인데, 얘는 셀레니움을 통해서 크롤링을 할 때, url의 변동이 있으면 디도스로 인식해서 인증을 해야지만 크롤링을 할 수 있게 만든다.
헤더를 줘도 안되고, 새 탭을 만들어서 해도 안되고.. 그렇다고 시간을 길게잡아서 크롤링해도 안되고!
그렇다고, 헤들리스 옵션이나 스크래피로 크롤링도 안된다ㅋㅋㅋㅋㅋ 그냥 값이 안떨어진다. 셀레니움으로 크롬 웹을 켜서 크롤링해야지만 값이 떨어진다. 아마 보안에 막히는 것 같다.
하다보니까, 이게 크롬창을 아예 껐다가 다시 키면 크롤링이 제대로된다. 뭐.. 당연한거지만..
그래서, 내일 마저 하려고하는건
엑셀파일의 링크를 통해서 크롤링하는 함수를 하나 만들어서, 크롬 창을 끄고 켜고 하면서 크롤링해야할 것 같다.
'Diary > 201~300' 카테고리의 다른 글
270일차 셀레니움(Selenium) - 구글 크롤링 (0) | 2021.09.25 |
---|---|
269일차 셀레니움(Selenium) - 나무위키 크롤링 (2) (0) | 2021.09.24 |
267일차 스크래피(Scrapy) - 지마켓(Gmarket) 전체 카테고리 상품 크롤링 (0) | 2021.09.22 |
266일차 스크래피(Scrapy) - 지마켓(Gmarket) 크롤링 (0) | 2021.09.21 |
265일차 스크래피(Scrapy) - 환경 설정 및 기초 (0) | 2021.09.20 |