반응형 한글데이터1 한글 hwp 파일을 텍스트 txt 로 긁어와서 데이터로 활용하기 웹자료 뿐만 아니라 문서로 만들어진 자료를 데이터로 활용해야 할 때가 있습니다. 우리나라에서는 공공기관은 당연하고 기업에서 '한글.hwp' 을 많이 사용하는데요. 특히 표로된 서식을 많이 사용하기 때문에 한글 자체에서 데이터를 긁어 오기에는 한계가 있습니다. 그래서 한글 hwp 파일을 텍스트 txt 파일로 긁어와서 데이터로 활용할 수 있도록 해보겠습니다. 파이썬 python을 이용해서 한글파일의 텍스트를 긁어오는 방식은 pyhwp 또는 olefile 패키지를 이용하는 방법이 있습니다. 시험해본 결과 표로된 한글 문서에서 텍스트를 가져오는데 pyhwp는 잘 작동되지 않는 것으로 확인했습니다. 저는 olefile 패키지를 활용한 방법을 안내드리겠습니다. import olefile ole = olefile.O.. 2022. 6. 23. 이전 1 다음