파이썬웹스크래핑 3

[파이썬] 구글 뉴스 웹 스크래핑 해보기

참고 출처 : 실무자를 위한 파이썬 100제 더보기 import requests from bs4 import BeautifulSoup base_url="https://news.google.com" search_url=base_url+"/search?q=python&hl=ko&gl=KR&ceid=KR%3Ako" resp=requests.get(search_url) html_src=resp.text soup=BeautifulSoup(html_src,'html.parser') #뉴스 아이템 블록 선택 news_items=soup.select('div[class="xrnccd"]') print(len(news_items)) print(news_items[0]) print("\n") #각 뉴스 아이템에서 링크,제..

[파이썬] 웹 스크래핑 (검색어를 url 코드로 변환)

참고 출처 : 실무자를 위한 파이썬 100제 urllib은 파이썬 표준 라이브러리 중 하나로 HTTP 요청, 파싱과 관련된 하위 패키지들이 존재하며, URL 파싱과 관련된 것은 다 urllib.parse에 들어있다. 1. URL 문자열 파싱하기 > urlparse()를 사용하면 URL 해석이 가능하다. urllib.parse.quote >> 인자로 주어진 문자열에서 특수문자를 문자열로 변환해서 반환해준다.

[파이썬] 웹 스크래핑 하는 방법

참고 출처 : 실무자를 위한 파이썬 100제 ## 웹 서버에 요청하고 응답하는 과정 Request : 사용자가 웹서버에게 웹 페이지 정보를 달라고 요청하는 과정이다. Response : 웹 서버가 웹 페이지 정보를 보내는 과정을 응답이라고 함. 1. Request의 get()함수를 사용하여 웹 서버에 GET요청을 보낸다. 2. 파이썬 홈페이지의 URL을 저장한 변수를 함수의 매개변수로 전달한다. 3. 웹 서버가 응답한 내용을 resp 변수에 저장한다. 4. 응답 결과를 출력한다. ## 웹 페이지 소스코드 확인하기 1. request 모듈 불러오기 2. url 변수에 파이썬 홈페이지 url 저장 3. 웹 서버에 get 요청을 보내고, 응답한 내용을 변수 resp에 저장한다. 4. HTML 소스 코드를 확인..