268일차 셀레니움(Selenium) - 나무위키 크롤링 (1)

2021. 9. 23. 17:03Diary/201~300

 

소스코드는 단순한데.. 은근 시간이 오래걸린다.. 숙련도가 낮아서 그런가보다. 시행착오를 계속 하고 있는 중이다.

 

이제 저 코드를 통해서 엑셀파일 a, b, c ... 을 만들고, 그에 따라서 상세 내용들을 링크를 통해 크롤링해서 채우는 형식으로 할 예정인데..

 

처음에는 링크를 하이퍼링크로 주고, 텍스트를 링크로 바꿨더니 value값이 제대로 안떨어지고 재가공을 해줘야하는 귀찮음이 생겨서 그냥 생짜 링크주소로 박아넣었다.

 

그리고, 지금 계속 시간을 허비한게, 클라우드플레어(cloudflare)인데, 얘는 셀레니움을 통해서 크롤링을 할 때, url의 변동이 있으면 디도스로 인식해서 인증을 해야지만 크롤링을 할 수 있게 만든다.

 

헤더를 줘도 안되고, 새 탭을 만들어서 해도 안되고.. 그렇다고 시간을 길게잡아서 크롤링해도 안되고!

 

그렇다고, 헤들리스 옵션이나 스크래피로 크롤링도 안된다ㅋㅋㅋㅋㅋ 그냥 값이 안떨어진다. 셀레니움으로 크롬 웹을 켜서 크롤링해야지만 값이 떨어진다. 아마 보안에 막히는 것 같다.

 

하다보니까, 이게 크롬창을 아예 껐다가 다시 키면 크롤링이 제대로된다. 뭐.. 당연한거지만..

 

그래서, 내일 마저 하려고하는건

 

엑셀파일의 링크를 통해서 크롤링하는 함수를 하나 만들어서, 크롬 창을 끄고 켜고 하면서 크롤링해야할 것 같다.