- 모수적(parametric) 방법: 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법. 모수치에 관심. 표본 내 개체에 대한 수치화된 점수가 필요하므로, 등간/비율척도로 측정된 데이터 필요.
- 비모수적 방법(non-parametric method): 모집단 분포에 대한 가정 없이 접근하는 통계적 방법. 모수치에 대한 가설 X. 모집단 분포에 대한 가정 충족 필요 X. 범주/빈도만 이용하며 수치화된 통계량 산출 필요 없으므로, 명명/서열척도로 측정된 데이터 가능. 모수적 검증만큼 민감한 통계적 차이 탐지 어려우므로 가능한 모수적 방법 선택.
카이스퀘어 검정
: 전체 빈도 분포의 형태에 대한 가설을 검증하는 비모수적 기법 중 하나. 모집단 내의 비율, 관계에 대한 가설을 평가하기 위해 표본데이터 이용.
- 각 관찰치들이 서로 독립적이라는 가정에 근거
- 각 관찰 빈도는 각기 다른 개체를 반영하고 있으며, 개체는 1개 이상의 범주로 나눌 수 없다.
각 개인에 대한 측정치가 아닌, 범주로 구분된 개개인과 인구의 어떤 비율이 각 범주에 속하는지를 알고자 한다.
여기에 쓰이는 데이터는 빈도분포표(도수분포표)/빈도그래프(히스토그램)의 형태로 제시될 수 있어야 한다.
당연히 하나의 개체는 하나의 범주에만 속할 수 있으며, 모든 범주의 값을 구해야한다.
만약 개체가 하나 이상의 범주에 속할 수 있는 반응을 보인다면, 관찰의 독립성 위반으로, 카이스퀘어 검정 사용하는 것은 부적절하다.
$$χ^2 =\sum\frac{(f_0-f_e)^2}{f_e}$$
- 기대빈도$f_e$의 크기에 따라 상대적으로 분자(차이값)가 왜곡될 수 있으므로 분모인 $f_e$로 나누어 준다.
- 큰 카이제곱 값은 $f_0$와$f_e$ 간에 큰 차이가 있다는 의미 → 영가설 기각
- $χ^2$ 통계치는 $f_e$값이 작을 때 왜곡되기 때문에 카이스퀘어 검증 적용 시, $f_e$값은 5이상으로 제한된다.
- 즉, 어떤 셀의 기대빈도가 5미만일 때는 카이스퀘어 검증을 수행해서는 안된다. 큰 표본을 쓰자!
- 카이제곱 검정의 두 가지 유형 -
조건에 맞는 기대빈도표를 그리고, 이 기대빈도표와 실제 데이터로부터 구한 카이스퀘어값을 임계값과 비교하여 검증 수행
- 측정변수 1개→ 적합도 검증
- 측정변수 2개→ 독립성 검증
1. 적합도 검증: $H_0$에 의해 예상되는 빈도분포와 표본에서 얻은 빈도분포를 비교. 획득된 표본의 비율(관찰빈도)가 $H_0$의 형태로 제시된 모집단 비율(예측빈도)에 얼마나 잘 맞는지를 검정.
$H_0$의 예
- 선호되는 것이 없다.: 서로 다른 범주 사이에서 특별히 선호되는 것이 없다. 한 범주가 다른 범주와 다른 비율을 갖고 있지 않다.
(브랜드 A, B, C 중 소비자들이 특별한 선호를 보이는 것이 없다.)
- 알려진 모집단과 차이가 없다.: 두 모집단의 구성비에 차이가 없다.
(유럽인 모집단에 대한 비율은 이미 알려진 미국인 모집단의 60%선호, 40%비선호 비율과 다르지 않다
- $f_0$: 특정 범주의 관측빈도 = n
- $f_e$: 특정 범주의 기대빈도, 예측빈도= $f_e=pn$=(범주 속의 관찰치 비율)*(표본의 크기)
- df=C-1=(범주의 수)-1: $f_e$값이 자유로이 선택되어질 수 있는 범주의 수
2. 독립성 검증: $H_0$:두 변인이 각각 독립적이다' 하에 두 변인 간의 영향 관계를 평가. '독립적'이란 한 변인의 빈도분포가 다른 변인의 범주와 연관이 되어있지 않다는 의미. 즉, 두 변인이 독립적일 때, 한 변인에 대한 빈도분포는 다른 변인의 모든 범주에 대해 동일한 비율을 지니게 된다.
$H_0$의 예:
- 일반적인 학생 모집단의 경우, 색상 선호도와 개인적 성향 간에 관계가 없다. (상관관계 가설과 유사하지만 데이터 형태가 다름)
- 학생 모집단의 경우, 개인적 성향(내, 외향)에 따라 색상 선호도 간 차이가 존재하지 않는다. 따라서 두 분포는 동일한 형태, 동일한 비율을 지닌다. (t검증/변량분석 가설과 유사하지만 데이터 형태가 다름)
- 기대빈도 $f_e=\frac{f_c f_r}{n}$
- $f_c$: 각 셀의 전체 행의 빈도
- $f_r$: 전체 열의 빈도
- df=(R-1)(C-1)=(열 범주의 수)(행 범주의 수)
- 큰 카이제곱 값은 $f_c$와$f_e$ 간에 큰 차이가 있다는 의미 → 영가설 기각. 두 변인 간 관련성이 있음.
카이제곱 독립성 검증의 효과크기
▶ 2x2 행렬표로 형성된 데이터: 파이계수=$\sqrt{\frac{χ^2}{n}}$
- 행렬표 내 비율에 의해 결정되며, 빈도의 크기와는 독립적이다.
- 상관관계이기 때문에 통계적 유의미성 보다 관계의 강도를 측정한 것이다.
- 상관관계 평가 표준을 따른다.
▶ 2x2 보다 큰 행렬표: 크래머의 V=$\sqrt{\frac{χ^2}{n(df*)}}$
- df*: (R-1)과 (C-1) 중 작은 것
- 분모의 자유도를 제외하면 파이계수 공식과 동일
[참고: 사회과학 통계방법론의 핵심 이론]
'공부 > 통계·ML' 카테고리의 다른 글
Data granularity와 Aggregation (0) | 2022.08.10 |
---|---|
[통계 스터디] 13. 일원 변량분석(ANOVA) - 변량분석, F분포, 사후검사 (0) | 2022.06.01 |
[통계스터디] 14. 반복측정 변량분석 - 반복측정 ANOVA, 2요인 ANOVA (0) | 2022.05.12 |
[통계 스터디] 12. 추정 - 점추정, 구간추정, 신뢰구간 (0) | 2022.04.15 |
[통계스터디] 11. 대응/상관표본 t검증 (0) | 2022.04.08 |