본문 바로가기
# 연구실

실시간 네이버 뉴스 '정치' 헤드라인 키워드

by lakedaimong 2022. 6. 29.

키워드 클라우드
네이버 뉴스 정치 카테고리 헤드라인 기사 오늘자 키워드

블로그 데이터 분석 카테고리에서 웹상의 단어를 수집하는 텍스트 마이닝을 통해 시각적으로 보여주는 코드를 소개드릴 예정입니다. 위에 보이는 워드클라우드는 2022년 6월 29일 오후 2시 20분 네이버 뉴스 정치 카테고리의 헤드라인 뉴스를 텍스트 마이닝 한 후 시각화한 것입니다. 

 

정치 : 네이버 뉴스

국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공

news.naver.com

텍스트 마이닝 소스의 원천은 위 링크와 같구요. 아래 이미지에 보이는 헤드라인 뉴스 기사들에서 키워드들을 추려낸 다음 자주 등장하는 키워드는 크게, 간혹 등장하는 단어는 작게 표시되었습니다.

네이버 뉴스 정치

키워드들을 살펴보면 대통령, 민주당, 의원, 국민, 정상회의, 북한 등이 주요하게 보이구요. 그외에 스페인 문화원, 나토 정상, 임시국회 소집, 대통령 부인, 전시회 관람 등의 단어도 보이네요. 기사 전문에서 키워드만 추려내기 위해 예외설정을 해주는데 당시, 지금과 같이 키워드로 볼 수 없는 불필요한 단어들이 섞여 있네요. 프로젝트를 진행하면서 코드를 보완하겠습니다.

 

프로젝트 소개 순서는 아래와 같이 진행될 예정입니다. 진행하면서 일부 수정될 수 있습니다.

  • 크롤링
  • 텍스트 마이닝
  • 자료처리
  • 워드클라우드 생성

지금은 네이버 특정 카테고리만 소개드렸는데요. 차후에 영역을 확대하여 워드클라우드를 이용하여 키워드를 시각화 시켰을 때 유의미한 텍스트 마이닝이 되는 분야를 발굴해 보겠습니다. 뉴스를 진보, 보수 매체별로 비교해 보는것도 재미있을거 같습니다.

워드클라우드 IT/과학 분야
네이버 뉴스 IT/과학 카테고리 헤드라인 기사 키워드

정치 카테고리와 비교를 위해 IT/과학 카테고리의 헤드라인 기사에서 워드마이닝을 통해 얻은 키워드의 워드클라우드 자료도 함께 올립니다.

반응형

댓글