본문 바로가기
반응형

분류 전체보기87

데이터 분석 도구 준비 - 코랩 본격적으로 데이터 분석을 실습해 보기 전에 먼저 데이터 분석을 할 도구가 필요합니다. 물론 데이터 분석을 위한 코드는 파이썬 python을 사용하지만 파이썬 작성할 도구가 필요합니다. 마치 글을 쓰려면 공책이나 노트북이 있어야 하는 것처럼요. 지난번에 그 도구 중 하나로 파이참 pycharm에 대해 소개한 적이 있습니다. 파이참 pycharm 설치 및 설정 파이참 pycharm 은 파이썬 python 코딩을 도와주는 통합 개발 환경(IDE) 입니다. 통합 개발 환경 IDE란 공통된 개발자 툴을 하나의 그래필 사용자 인터페이스GUI로 결합하는 애플리케이션을 구축하기 blog.arecacoco.com 파이참도 많이 사용하고 다양한 기능을 제공하는 IDE지만 앞으로 하게 될 데이터를 분석하고 분석된 데이터를 .. 2022. 7. 23.
퀀트랩 3주차 - 리밸런싱 수익률 및 종목변화 지난주에 이어 어번 한주도 시장이 매우매우 안 좋습니다. 종합지수도 계속 하락하고 있구요. 계속 오를 전망인 금리와 유가 상승 등으로 당분간은 전망이 밝지 않습니다. 퀀트로 종목을 고르는 프로젝트를 진행중인데 지난 한주동안에는 이명박 전 대통령의 형집행정지로 인해 관련 건설주의 상승이 눈에 띄었습니다. 역시 심리적 작용을 무시할 수 없네요.;; 이번주 리밸런싱 결과 KTcS, 원익을 전량 매도하고, 윙입푸드, 한국가구가 새로 들어왔네요. 다음주 상승을 기대해 봅니다. 2022. 7. 4.
한겨레 vs 조선일보 신문게재기사 키워드 비교 - 20220630 언론사의 진보, 보수 성향이나 색깔은 일간 지면에 게재된 기사가 가장 도드라질거란 생각에 각 성향별로 기사의 키워드를 볼 수 있도록 비교해서 올릴 예정입니다. 한겨레와 조선일보 오늘 20220630 신문기사 전체를 수집했고 필터를 동일하게 적용시켰습니다. 필터는 앞서 말씀드린대로 워드클랑우드를 생성하고 나서 검토한 다음 수정될 경우 새롭게 필터가 적용된 워드클라우드를 올리겠습니다. 조선일보 기사에는 반도체, 시장, 기업, 경제, 사람, 공무원, 북한 등이 눈에 띄고 한겨레는 주택, 위원회, 요구, 물가 증가 등에 눈에 들어옵니다. 다른 언론사들도 준비해 보고 키워드로 경향성이 두드러지도록 필터도 정비해 보겠습니다. 2022. 6. 30.
지금 이시간 네이버 정치뉴스 키워드 보기 202206301120 현재 네이버 뉴스 정치 카테고리에 올라와 있는 헤드라인 기사를 수집하여 자주 노출된 키워드를 중심으로 만든 워드클라우드 입니다. 지난번에 만든 워드클라우드 보다 키워드가 돋보이도록 불필요한 단어를 필터링 했습니다. 필터는 자료를 올리기 전에 검토하여 보완하고 있습니다. 2022. 6. 30.
뉴스 키워드를 어떻게 수집하지? (1) 이전 포스팅에서 네이버 헤드라인 기사의 키워드를 모아서 '워드 클라우드'형태로 보여드렸습니다. 이렇게 보면 해당 매체에서 어떠한 키워드들을 주로 보여주고 있는지 시각적으로 빠르게 파악을 할 수 있는데요. 이러한 키워드를 어떻게 수집해서 워드 클라우드로 보여줄 수 있는지 그 코드를 안내하고 설명해 보겠습니다. 이시간 네이버 정치 헤드라인 뉴스 키워드 보기 202206292240 다른 워드 마이닝을 진행하기 전에 지금 이 시각 네이버 뉴스 정치 카테고리 헤드라인 기사의 키워드를 워드클라우드로 살펴봅니다. 현재 대통령이 나토 정상회담에 참석중이라 관련된 키워드 blog.arecacoco.com 기사 크롤링 HTML 삽입 미리보기할 수 없는 소스 네이버 뉴스 정치 카테고리를 기준으로 설명해 보겠습니다. 네이버 .. 2022. 6. 29.
이시간 네이버 정치 헤드라인 뉴스 키워드 보기 202206292240 다른 워드 마이닝을 진행하기 전에 지금 이 시각 네이버 뉴스 정치 카테고리 헤드라인 기사의 키워드를 워드클라우드로 살펴봅니다. 현재 대통령이 나토 정상회담에 참석중이라 관련된 키워드가 많네요. '여사' 키워드가 크게 보이네요. 2022. 6. 29.
실시간 네이버 뉴스 '정치' 헤드라인 키워드 블로그 데이터 분석 카테고리에서 웹상의 단어를 수집하는 텍스트 마이닝을 통해 시각적으로 보여주는 코드를 소개드릴 예정입니다. 위에 보이는 워드클라우드는 2022년 6월 29일 오후 2시 20분 네이버 뉴스 정치 카테고리의 헤드라인 뉴스를 텍스트 마이닝 한 후 시각화한 것입니다. 정치 : 네이버 뉴스 국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공 news.naver.com 텍스트 마이닝 소스의 원천은 위 링크와 같구요. 아래 이미지에 보이는 헤드라인 뉴스 기사들에서 키워드들을 추려낸 다음 자주 등장하는 키워드는 크게, 간혹 등장하는 단어는 작게 표시되었습니다. 키워드들을 살펴보면 대통령, 민주당, 의원, 국민, 정상회의, 북한 등이 주요하게 보이구요. 그외에 스페인 문화원, 나토 정상, 임시국회 소집.. 2022. 6. 29.
데이터프레임 CSV 데이터프레임 지난번 시간에 간단히 딕셔너리를 만들어보고 그 딕셔너리를 이용하여 데이터프레임을 생성해 보았습니다. 앞으로 데이터 분석을 위한 기초로 활용될 기술인데요. 몇 줄 안되는 데이터를 가지고 데이터를 분석한다고 할 수는 없겠죠? 엑셀에서 포맷으로 저장할 수 있는 CSV 파일을 데이터 자료로 활용하게 될텐데요. python에서 만든 데이터 프레임을 csv 파일로 내보내거나 csv 파일을 python 데이터프레임으로 가져올 수도 있습니다. 판다스 pandas 와 데이터프레임 기초 판다스 pandas는 파이썬에서 데이터 분석을 위해 사용되는 필수 패키지 중 하나입니다. 판다스가 제공하는 2차원 테이블 형태 구조인 "데이터프레임"은 주로 데이터를 읽어서 저장하고 그 데이블 blog.arecacoco.com 먼저 지난번.. 2022. 6. 27.
퀀트랩 2주차 - 수익률 및 리밸런싱 퀀트랩 2주차 입니다. 금리 상승에 전망이 계속 좋이 않음에도 불구하고 오늘 장이 회복되는 모습을 보여주고 있네요. 해외 증시라던가 국내 상황, 이런 것들이 종합적으로 반영된 투자심리 등은 저보다 더더 전문가들의 정보들이 많이 널려있으니 생략하겠습니다. 제가 운영하는 퀀트랩은 지금같은 약세장에서도 퀀트 분석을 통한 투자가 과연 시장을 이길 수 있을까? 하는 의문에서 진행해 보는겁니다. 진짜 실험인거죠. 지금은 시장이 불안한 상태라 리밸런싱을 짧게 1주일 간격으로 가져가 보려고 합니다. 초반이기도 하고.. 어느 순간이 되면 Python을 이용하여 어떻게 퀀트투자를 하는지도 차차 소개드리도록 하겠습니다. [1/10] 종목명: 아시아경제 PER: 2.48 PBR: 0.40 PER순위: 5 PBR순위: 18 R.. 2022. 6. 27.