본문 바로가기

2021-2 빅데이터 스터디

[6] 전세계 축구 선수 몸값 분석 (섹션1, 2)

섹션 1. 크롤링을 시작해볼까요?

 

1) 웹 크롤링이란?

- 주의 사항 :

저작권에도 신경 쓰면서..사이트에 무리가 가지 않도록..

하지 말라는 건 하지 말고,,,

- 웹의 동작 방식

클라이언트 -(요청)> 서버

클라이언트 <(응답)- 서버

- 크롬 개발자 도구 : F12

- html

<!DOCTYPE html>
  <html>
  <body>
  <h1>안녕하세요?</h1>
  <h4>반갑습니다.</h4>
  <a href="https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%EA%B3%A0%EC%96%91%EC%9D%B4/">고양이 사진 보러 가기</a>
  <br>
  <p>우리 집 고양이 코코도 보여드릴게요. </p>
  <img src="coco6.jpg" width="300" height="400">
  </body>
  </html>

 

2) BeautifulSoup 라이브러리 실습

 

- html_doc

- tag의 정보 가져오기 :

find()

find_all() => 결과물: 리스트 타입 !

- text만 가져오기:

.text로 쓰기! find_all()로 가져온 정보는 반복문을 통해 하나씩!

 

[섹션1_실습]

https://colab.research.google.com/drive/1YVHYaQdjDHRMEdOiQNuCvBK4zQZ-mPJJ?usp=sharing 

 

 

섹션 2. Transfermarkt 실전크롤링

[섹션2_실습]

https://colab.research.google.com/drive/1-gw2tAePgxCcx6UYx8hsgngfxbxkGQj6?usp=sharing