258일차 SWA - 데이터 수집 계획

2021. 9. 13. 20:46Diary/201~300

나는 무작정 개발하는 것보다는 어느정도 계획을 세우고 그 계획에 맞춰서 개발하는 것을 선호한다.

지금 애니메이션 추천을 위한 데이터 수집을 해야하는데, 해본적이 없으니.. 일단 머릿속에 떠오르는대로 계획을 세우고 진행해봐야겠다.

 

서버가 받아야 할 정보 : 장르, 태그 등등의 옵션

사용자가 받고 싶은 정보 : 애니메이션 제목

 

크롤링을 하기 위해서는 어떻게 진행해야 할까..?

 

음.. 엑셀 파일이 어떤 형식이면 좋을까..?

애니메이션 제목 대표 이미지 장르 태그 제작년도

위와 같은 형태면 괜찮지 않을까?

 

1. 애니메이션 제목

https://namu.wiki/w/%EC%9D%BC%EB%B3%B8%20%EC%95%A0%EB%8B%88%EB%A9%94%EC%9D%B4%EC%85%98/%EB%AA%A9%EB%A1%9D

 

위의 나무위키 사이트에서 철자에 맞게 크롤링 하면 될 것 같다.

 

2. 대표 이미지

나무위키!!!

 

3. 장르

나무위키!!!

 

4. 태그

나무위키!!!

 

5. 제작년도

나무위키!!!

 

이야.. 나무위키가 최고네. 작품정보라는 칸이 있어서 거기에서 뽑아오면 될 것 같다.

 


1. 애니메이션 제목

.w .wiki-heading-content .wiki-list .wiki-paragraph .wiki-link-internal

 

 

2. 애니메이션 대표 이미지

.w .wiki-table-wrap .wiki-image-wrapper img

 

 

3. 애니메이션 장르

.wiki-folding .start .wiki-table-wrap .wiki-table .wiki-paragraph .wiki-link-internal

 

 

으음.. 한번 크롤링 해봐야겠지만

테이블 형식이라 특정 테이블을 지정하기 위해서는 테이블 전체를 가져온 다음에, 그 안에서 첫 번째 컬럼이 "장르", "제작년도"인것을 뽑아오는 형식으로 해야할 것 같다.

 

어우.. 오늘 매복 사랑니를 뽑았는데, 집중이 계속 깨진다..;; 내일 마저 해야겠다 아파라...