본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 2장 통계분석 - 통계분석의 이해

by 팀장일기 2021. 10. 1.

제 1절 통계분석의 이해

 1. 통계 

   - 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

   - 표본조사 : 대상 집단의 일부를 추출해 어떤 현상을 관측/ 조사해 자료 수집하는 방법

    * 표본추출방법

     -단순랜덤 추출법 : n개의 번호를 임으로 선택해 해당 원소를 표본으로 추출

     -계통 추출법 :  N개 원소로 구성된 모집단에서 k개씩 n개 구간 나누고 첫구간에서 하나임의 선택 후 k개씩 띄어 표본 추출 

     - 집락추출법 : 모집단이 집락(cluster)의 결합으로 구성돼있는 경우 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본 임의 선택 

     - 층화추출법 : 각 계층 고루 대표할 수 있게 표본 추출. 이질적 모집단 원소를 유사한 것 끼리 몇 개의 층 (stratum)으로 나눈 후 각 층에서 랜덤하게 표본 추출 

    * 명목척도 (nominal scale) : 측정대상이 어느 집단에 속하는지 분류할 때 사용 

    * 순서척도 (ordinal scale) : 측정대상의 서열관계를 관측하는 척도

    * 구간척도 (interval scale) ;측정대상이 갖은 속성의 양 측정. 관측갑 사이 비율 의미 x

    * 비율척도 (ratio scale) : 절대적 기준값(0) 존재, 사칙연산 가능. 가장 많은 정보 갖는 척도

     - 질적자료 /이산형 자료 : 명목척도, 순서척도 

     - 양적자료 / 연속형 자료 : 구간척도, 비율척도 

 

 

 2. 통계분석 (staticsical analysis)

   - 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계분석방법을 이용해 의사결정을 하는 과정(통계적 추론)

    * 대상 집단에 대한 정보 : 자료를 요약 -정리한 결과, 숫자 / 그림으로 정리된 각종 통계 

    * 통계적 추ㅊ론 : 수집된 자료를 이용해 대상 집단 (모집단)에 대해 의사결정을 하는것 

     - 추정(estimation), 가설검정(hypothesis test), 예측(forecasting) 

    *기술통계 (desriptive statistic) : 수집된 자료를 정리 - 요약하기 위해 사용되는 기초통계 

     - 자체로도 여러용도에 쓰이나 대게 자세한 통계적 분석을 위한 전단계 역할

 

 3. 확률 및 확률분포

   - 활률: 특정사건이 일어날 가능성의 척도 

    * 표본공간(sample space. Ω) : 나타날 수 있는 모든 결과들의 집합 

    * 원소 (element) : 나타날 수 있는 개개의 결과 

    * 사건 (event) : 표본공간의 부분집합

   -확률변수 (random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 (정의역이 표본공간, 치역이 실수 값인 함수 .  

    * 이산형 확률변수(discrete. r.v) : 0이 아닌 확률 값을 갖는 셀 수 있는 실수 값

    * 연속형 확률변수(continuous r.v) : 특정 실수 구간에서 0이 아닌 확률을 갖는 확률 변수 

    * 결합확률 분포 (joint probability distrbution) : 두 확률변수의 결합확률분포 

  - 통계분석에서 수집된 자료에서 어떤 정보를 얻고자 할 때는 항상 수집된 자료가 특정 확률분포를 따른다고 가정 

    * 이산형 :베르누이, 이항분포, 기하분포, 다항분포, 포아송분포 등 

    * 연속형 : 균일분포, 정규분포, 지수분포, t분포, f분포 등 

 

 4. 추정과 가설검정 

   - 각 확률분포는 평균, 분산 등의 모수 (parameter)fmf rkwdma 

   - 확률표본(random sample) : 특정 확률분포로부터 독립적으로 반복해 표본을 추출하는것. 각 관찰값들은 서로 독립적이며 동일한 분포

    * 모수 : 모집단의 특성을 나타내는 값 (일반적으로 알려져 있지 않음) 표본추출에 의해 모수 추정

     - 점추정(Point estimation) : 모수가 특정한 값얼마나 추정이 정확한지 판단 불가 ex) 표본평균, 표본분산

     - 구간추정(interval estimation) : 확률로 표현된 믿음의 정도 하에서 모수가 특정구간에 있을 것. 분포에 대한 전제 필요/ 구해진 구간 (신뢰구간) 안에 모수가 있을 가능성의 크기 (신뢰수준 주어져야함. 

   - 가설검정 : 모집단에 대한 어떤 가설을 설정한 후 표본관찰을 통해 가설의 채택여부 결정 

    * 검정하고자 하는 모집단의 모수에 대한 가설 설정이 가장 기본적

     - 귀무가설 (H0) : 모수에 대한 가설 중 간단하고 구체적인 표현 설정 

     - 대립가설 (H1) 

    * 검정통계량(test statistic) : 검정ㅇ 사용되는 통계량 

    * 유의수준 (significance level) : H0이 오른데 이를 기각하는 확률의 크기 

    * 기각역 (critical region) : H0이 옳다는 전제에서 구한 검정통계량의 분포에서 확률이 유의수준인 부분 

   - 오류 (error) 

    * Type 1 : H0가 맞는데 기각하는 오류 

    * Type 2 : Ho가 틀린데 채택하는 오류

     - 상층관계, 일반적으로 1종오류(α) 크기를 고정시키고 2종오류(β) 최소화되게 기각역 설정

 

 5. 비모수 검정 

   - 모수적 검정방법 : 검정하고자 하는 모집단의 분포에 대한 가정 하에서 검정통계량과 그 분포를 유도해 검정 실시 

   - 비모수적 검정 : 자료가 추출된 모집단의 분포에 아무 제약 않고 검정 실시

   - 모수 & 비모수 차이점 

  모수 비모수
가설검정 가정된 분포의 모수 분포의 형태
검정 관측된 절대적 크기 자료 이용 관측값의 순위나 차이의 부호 등 이용

 

 

 

댓글