본문 바로가기

뷰티풀소프2

뉴스 키워드를 어떻게 수집하지? (1) 이전 포스팅에서 네이버 헤드라인 기사의 키워드를 모아서 '워드 클라우드'형태로 보여드렸습니다. 이렇게 보면 해당 매체에서 어떠한 키워드들을 주로 보여주고 있는지 시각적으로 빠르게 파악을 할 수 있는데요. 이러한 키워드를 어떻게 수집해서 워드 클라우드로 보여줄 수 있는지 그 코드를 안내하고 설명해 보겠습니다. 이시간 네이버 정치 헤드라인 뉴스 키워드 보기 202206292240 다른 워드 마이닝을 진행하기 전에 지금 이 시각 네이버 뉴스 정치 카테고리 헤드라인 기사의 키워드를 워드클라우드로 살펴봅니다. 현재 대통령이 나토 정상회담에 참석중이라 관련된 키워드 blog.arecacoco.com 기사 크롤링 HTML 삽입 미리보기할 수 없는 소스 네이버 뉴스 정치 카테고리를 기준으로 설명해 보겠습니다. 네이버 .. 2022. 6. 29.

크롤링 기초 requests를 이용한 웹페이지 긁기 크롤링은 인터넷 상의 수많은 웹페지중 조건에 많은 정보들을 수집하는 기술입니다. 내가 필요한 특정 정보에 대한 조건을 설정하기 전에 raw data에 해당하는 웹페이지의 html을 긁어와야 합니다. 파이썬의 대표적인 크롤링 패키지인 requests를 이용한 웹페이지 긁어오는 방법에 대해 알아보겠습니다. 실습코드 import requests from bs4 import BeautifulSoup url = 'html을 긁어올 주소 URL' headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = re.. 2022. 6. 14.

이전 1 다음

티스토리툴바