본문 바로가기
반응형

Beautifulsoup3

뉴스 키워드를 어떻게 수집하지? (1) 이전 포스팅에서 네이버 헤드라인 기사의 키워드를 모아서 '워드 클라우드'형태로 보여드렸습니다. 이렇게 보면 해당 매체에서 어떠한 키워드들을 주로 보여주고 있는지 시각적으로 빠르게 파악을 할 수 있는데요. 이러한 키워드를 어떻게 수집해서 워드 클라우드로 보여줄 수 있는지 그 코드를 안내하고 설명해 보겠습니다. 이시간 네이버 정치 헤드라인 뉴스 키워드 보기 202206292240 다른 워드 마이닝을 진행하기 전에 지금 이 시각 네이버 뉴스 정치 카테고리 헤드라인 기사의 키워드를 워드클라우드로 살펴봅니다. 현재 대통령이 나토 정상회담에 참석중이라 관련된 키워드 blog.arecacoco.com 기사 크롤링 HTML 삽입 미리보기할 수 없는 소스 네이버 뉴스 정치 카테고리를 기준으로 설명해 보겠습니다. 네이버 .. 2022. 6. 29.
크롤링 기초 requests를 이용한 웹페이지 긁기 크롤링은 인터넷 상의 수많은 웹페지중 조건에 많은 정보들을 수집하는 기술입니다. 내가 필요한 특정 정보에 대한 조건을 설정하기 전에 raw data에 해당하는 웹페이지의 html을 긁어와야 합니다. 파이썬의 대표적인 크롤링 패키지인 requests를 이용한 웹페이지 긁어오는 방법에 대해 알아보겠습니다. 실습코드 import requests from bs4 import BeautifulSoup url = 'html을 긁어올 주소 URL' headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = re.. 2022. 6. 14.
네이버 블로그 서로이웃 추가 자동화 준비 파이썬을 이용한 업무자동화 첫번째 순서로 "네이버 블로그 서로이웃 추가 자동화"를 구현해 보겠습니다. 해당 내용은 셀레니움을 이용한 웹페이지 컨트롤를 이용한 자동화 구현 방법입니다. 내가 운영하고 있는 네이버 블로그가 검색에 잘 노출될 수 있도록 하기 위해서는 다양한 방법이 존재하는데요. 그 중에서 크롬브라우저를 자동으로 컨트롤 하여 서로이웃을 늘려보겠습니다. 최근에 네이버 블로그 알고리즘의 변화로 서로이웃의 숫자가 노출과 연관성이 떨어졌다고 합니다. 그런것과 무관하게 목표는 크롬 브라우저를 컨트롤하는 코드에 있다는 점! 다시한번 강조드립니다. 상관없이 이 방법으로 서로이웃을 늘리고 싶은 분들도 있겠죠? 오늘은 첫번째 시간으로 기본 환경설정을 진행해 보겠습니다. 준비해야 할 것은 아래와 같습니다. pyc.. 2022. 6. 13.