본문 바로가기
반응형

크롤링4

오늘 키워드 'ChatGPT' 기사링크 모음 글 목록 2023년 3월 1일 키워드 'ChatGPT' 요즘 ChatGPT가 '핫' 합니다. 그래서 네이버 뉴스에서 'GPT'로 검색했을 때 조회되는 기들의 제목에 각 기사의 링크를 달아서 제목만 한눈에 볼 수 있게 해봤습니다. 파이썬을 이요한 간단한 크롤링 인데요. 코드를 테스트 해보고 첫 번째로 올려봅니다. 배울수 있는 것들 간단하게 네이버 뉴스를 크롤링하고 그렇게 모은 기사 제목과 링크를 만들어 아래와 같이 만들어보는 실습 포스팅을 작성할 예정입니다. 이 실습을 통해 다음의 내용을 배울 수 있습니다. 웹의 구성과 URL 분석 파이썬 함수, 반복문 마크다운 문법 - 텍스트 링크 기사링크 목록 - 'GPT' 검색 결과 챗GPT가 메신저 친구로... 생성AI 영역은 무한 확장 중 국민대, 국내 대학 최초.. 2023. 3. 1.
뉴스 키워드를 어떻게 수집하지? (1) 이전 포스팅에서 네이버 헤드라인 기사의 키워드를 모아서 '워드 클라우드'형태로 보여드렸습니다. 이렇게 보면 해당 매체에서 어떠한 키워드들을 주로 보여주고 있는지 시각적으로 빠르게 파악을 할 수 있는데요. 이러한 키워드를 어떻게 수집해서 워드 클라우드로 보여줄 수 있는지 그 코드를 안내하고 설명해 보겠습니다. 이시간 네이버 정치 헤드라인 뉴스 키워드 보기 202206292240 다른 워드 마이닝을 진행하기 전에 지금 이 시각 네이버 뉴스 정치 카테고리 헤드라인 기사의 키워드를 워드클라우드로 살펴봅니다. 현재 대통령이 나토 정상회담에 참석중이라 관련된 키워드 blog.arecacoco.com 기사 크롤링 HTML 삽입 미리보기할 수 없는 소스 네이버 뉴스 정치 카테고리를 기준으로 설명해 보겠습니다. 네이버 .. 2022. 6. 29.
실시간 네이버 뉴스 '정치' 헤드라인 키워드 블로그 데이터 분석 카테고리에서 웹상의 단어를 수집하는 텍스트 마이닝을 통해 시각적으로 보여주는 코드를 소개드릴 예정입니다. 위에 보이는 워드클라우드는 2022년 6월 29일 오후 2시 20분 네이버 뉴스 정치 카테고리의 헤드라인 뉴스를 텍스트 마이닝 한 후 시각화한 것입니다. 정치 : 네이버 뉴스 국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공 news.naver.com 텍스트 마이닝 소스의 원천은 위 링크와 같구요. 아래 이미지에 보이는 헤드라인 뉴스 기사들에서 키워드들을 추려낸 다음 자주 등장하는 키워드는 크게, 간혹 등장하는 단어는 작게 표시되었습니다. 키워드들을 살펴보면 대통령, 민주당, 의원, 국민, 정상회의, 북한 등이 주요하게 보이구요. 그외에 스페인 문화원, 나토 정상, 임시국회 소집.. 2022. 6. 29.
크롤링 기초 requests를 이용한 웹페이지 긁기 크롤링은 인터넷 상의 수많은 웹페지중 조건에 많은 정보들을 수집하는 기술입니다. 내가 필요한 특정 정보에 대한 조건을 설정하기 전에 raw data에 해당하는 웹페이지의 html을 긁어와야 합니다. 파이썬의 대표적인 크롤링 패키지인 requests를 이용한 웹페이지 긁어오는 방법에 대해 알아보겠습니다. 실습코드 import requests from bs4 import BeautifulSoup url = 'html을 긁어올 주소 URL' headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = re.. 2022. 6. 14.