본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 텍스트 마이닝

by 팀장일기 2021. 10. 7.

제 1절 텍스트 마이닝 

   - 텍스트로부터 고품질의 정보를 도출하는 과정. 입력된 텍스트를 구조화해 그 패턴을 도출한 후 결과를 평가해석하는 일련의 과정 통칭

    * 다양한 포맷의 문서로부터 데이터를 획득해 이를 문서별 단어의 매트릭스로 만들어 추가 분석이나 데이터 마이닝 기법을 적용해 통찰을 얻거나 의사결정을 지원하는 방법

   - 다양한 포맷의 문서로부터 텍스트를 추출해 이를 하나의 레코드로 만들어 단어 구성에 따라 마트를 구성하고 이들 간의 관계를 이용해 감성분석(sentiment analysis)이나 워드 클라우드(word cloud)를 수행하고 이 정보를 클러스터링이나 분류와 사회연결망 분석에 활용 가능 

    * 예) 주고 받은 문장을 API로 읽어 분석해 평판관리와 마케팅 화롱을 실시간 관리 가능, 경쟁사 브랜드에 대한 반응 모니터링으로 경쟁 전략 수립 가능, 효율적 검색을 위해 주체어 분리해 체계적 관리방안에 활용, ㅡㄱ정 분야의 전문가 알아내는 데 활용 가능 등 

 

 1. 텍스트 마이닝 기능 요약 

텍스트마이닝 요약

   - 해당 언어에 대한 깊이 있는 이해와 문화와 관습에 대한 이해 필요 

    * 국가별로 다른 접근 방식의 분석을 수행해야함(어려운 점) 

 

 2. 정보검색(information retrieval)의 적합성 

   - 정확도와 재현율(Precision & Recall) 자연어 처리 분야에서 분석 결과를 평가하기 위해 사용하는 대표적 방법

    * 정확도 ; 분석모델이 결과중에 정답과 일치 하는 비율 

    * 재현율 : 실제 정답 중에서 분석모델에서 정답이라고 내놓은 결과의 비율 

    * 일반적으로 정확도와 재현율은 반비례 관계 

 

  가. Corpus

   - 데이터 마이닝의 절차 중 데이터의 정제, 통합, 선택, 변환의 과정을 거치 구조화된 단계로서 더 이상 추가적 절차 없이 데이터 마이닝 알고리즘 실험에서 활용가능한 상태 

    * 텍스트 마이닝 패키지 (TM)에서 문서를 관리하는 기본구조, 텍스트 문서들의 집합

   - VCorpus로 메모리에서만 유지되는 Corpus와 R외부의 DB나 파일로 관리되는PCorpus로 나뉨

   - Corpus를 다른 object에서 가져온 경우 default working directory에 개별파일로 저장됨. 

   - stop word : (한글)조사, 띄어쓰기 , (영어)띄어쓰기, 시제 등 내용 제거 & 표준화 

 

  나. Create Term-Document Matrix 

   - 읽어들인 문서를 plain text전환. space제거, lowercase로 전환, puntuation 제거, stopword처리, stemming등 처리한 후 문서번호와 단어간 사용 여부, 빈도수를 이용해 matrix 만드는 작업

 

  다. Dictionary

   - 복수의 문자들의 집합. 텍스트 마이닝에서 분석에 사용하고자하는 단어들의 집합

    * 단어 추가 가능 : 분석하고자하는 단어드를 별도 사전으로 정의해서 해당 단어들에 대해서만 결과를 산출해 볼 때 사용 

 

  라. 감성분석(Sentiment Analysis) 

   - 흔히 Opinion mining 등으로 언급

   - 문장에서 사용된 단어의 긍정과 부정여부에 따라 얼마나 긍정적인 단어가 많은지 소스를 부여해 긍정 문장인지 평가 

    * 브랜드 평판 분석 가능. 주체에 따라 다르게 해석 가능 

   - 복잡한 문장을 분석할 때 개별 문장이나 문서에 대해서는 오류 발생 가능 

    * 개별 문장 분석 오류 나도 수 많은 문서나 데이터 가공하면 그 추이 파악에는 무리없어 감성분석에 대해 ㅈ부정적일 필요는 없음. 

   - 트위터에서 자료가져오는 방식

    * 웹페이지에서 HTML을 데이터로 가져와 파싱(parsing)하는 방식 

    * API 를 이용해 자료를 가져오는 방식 (인증필요, 데이터양 제한 ) 

    * callback URL 사용 불가 

 

  마. 한글 처리

   - KoNLP가 대표적. JRE(java runtime environment) 반드시 설치 

 

  바. 워드 클라우드

   - 문서에 포함된 단어의 사용 빈도를 효과적으로 보여주기 위함. 

    * available.package : R에서 사용가능한 패키지 리스트 출력 

댓글