본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트

by 팀장일기 2022. 3. 11.

ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트

ADsP 데이터 분석 준 전문가 과정 

02 데이터 마트 

 1. 데이터 마트의 이해 

(1) 데이터마트 : 데이터 마트란 데이터 웨어하우스로부터 특정사용자가 관심을 갖는 데이터를 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 이다. 

(2) 데이터 전처리 : 데이터 마트를 개발했다면 전처리 단계를 거쳐야 한다. 빅데이터 분석단계에 들어가기전, 데이터를 전처리 하는 과정이 꼭 필욯다. 전처리에는 데이터를 정제하는 과정과 분석변수를 처리하는 과정이 포함된다. 데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용으로 이루어진다. 

 

 2. 데이터 마트 개발을 위한 R 패키지 활용 

(1)reshape 패키지 

melt 함수 : '녹이다' 라는 뜻의 melt 함수는 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들수 있다. 

cast 함수 : '주조하다'라는 의미의 cast 함수는 melt 함수에의해 녹은 데이터를 요약하기 위해 새롭게 가공할 수 있게 도와준다. 

(2) SQLDF 패키지

sqldf는 표준 SQL 문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해주는 패키지로서 SAS에사 PROC SQL과 같은 역할을 한다. 

(3) plyr 패키지

plyr은 apply함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리기능을 제공한다. plyr은 입력되는 데이터 구조와 출력되는 데이터 구조에 따라 여러가지 함수를 지원한다. 

(4) data.table 패키지 

데이터 테이블은 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조다. 

03 데이터 탐색 

 1. 탐색적 데이터분석 (EDA)

(1) 탐색적 데이터 분석 (EDA) : 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통계값과 분포등을 시각화하고 분석하는 것을 말한다. 

(2) 붗꽃(IRIS) 데이터를 이용한 탐색적 데이터 분석의 예

: 세가지 붓꽃 종(Species)에 따른 꽃받침 길이(Sepal Length), 꽃받침 폭 (Sepal Width), 꽃잎길이(Petal Length),꽃잎 폭 (Petal Width)을 기록한 데이터다. 

 

 2. 결측값

(1) 결측값

(2) 결측값 대치방법

1) 단순대치법 : 결측값이 존재하는 데이터를 삭제하는 방법이다. 

2) 평균대치법 : 관측 또는 실험으로 얻은 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법이다. 

3) 단순 확률대치법 : 평균대치법에서 추정량 표준 오차의 과소추정문제를 보완하고자 고안된 방법이다. 

4) 다중대치법 : 여러번의 대치를 통해 n개의 임의 완전 자료를 만드는 방법

 

 3. 이상값

(1) 이상값

 : 이상값이란 값이 존재하지 않는 결측값과 달리 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값을 의미 한다. 

(2) 이상값 판단 

1) ESD(Extreme Studentized Deviation) : ESD는 평균으로부터 '표준편차3' 만큼 떨어진 값들을 이상값으로 인식하는 방법 

2) 사분위수  

댓글