공부/통계·ML

[통계 스터디] 16. 카이스퀘어: 적합도와 독립성검증

jiyoonmik 2022. 6. 3. 03:22
  • 모수적(parametric) 방법: 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법. 모수치에 관심. 표본 내 개체에 대한 수치화된 점수가 필요하므로, 등간/비율척도로 측정된 데이터 필요.
  • 비모수적 방법(non-parametric method): 모집단 분포에 대한 가정 없이 접근하는 통계적 방법. 모수치에 대한 가설 X. 모집단 분포에 대한 가정 충족 필요 X. 범주/빈도만 이용하며 수치화된 통계량 산출 필요 없으므로, 명명/서열척도로 측정된 데이터 가능. 모수적 검증만큼 민감한 통계적 차이 탐지 어려우므로 가능한 모수적 방법 선택.

 

카이스퀘어 검정

: 전체 빈도 분포의 형태에 대한 가설을 검증하는 비모수적 기법 중 하나. 모집단 내의 비율, 관계에 대한 가설을 평가하기 위해 표본데이터 이용.

  • 각 관찰치들이 서로 독립적이라는 가정에 근거
  • 각 관찰 빈도는 각기 다른 개체를 반영하고 있으며, 개체는 1개 이상의 범주로 나눌 수 없다.

도수분포표(좌)와 히스토그램(우)

각 개인에 대한 측정치가 아닌, 범주로 구분된 개개인과 인구의 어떤 비율이 각 범주에 속하는지를 알고자 한다.

여기에 쓰이는 데이터는 빈도분포표(도수분포표)/빈도그래프(히스토그램)의 형태로 제시될 수 있어야 한다.

당연히 하나의 개체는 하나의 범주에만 속할 수 있으며, 모든 범주의 값을 구해야한다.

만약 개체가 하나 이상의 범주에 속할 수 있는 반응을 보인다면, 관찰의 독립성 위반으로, 카이스퀘어 검정 사용하는 것은 부적절하다.

 

 

$$χ^2 =\sum\frac{(f_0-f_e)^2}{f_e}$$

 

  • 기대빈도$f_e$의 크기에 따라 상대적으로 분자(차이값)가 왜곡될 수 있으므로 분모인 $f_e$로 나누어 준다.
  • 큰 카이제곱 값은 $f_0$와$f_e$ 간에 큰 차이가 있다는 의미 → 영가설 기각
  • $χ^2$ 통계치는 $f_e$값이 작을 때 왜곡되기 때문에 카이스퀘어 검증 적용 시, $f_e$값은 5이상으로 제한된다.
  • 즉, 어떤 셀의 기대빈도가 5미만일 때는 카이스퀘어 검증을 수행해서는 안된다. 큰 표본을 쓰자!

 

임계영역은 극단의 꼬리 부분에 위치하며, 큰 카이스퀘어값을 나타낸다. 이렇게 0에서 멀어질 수록 영가설을 기각할 확률이 높아진다.

 

카이스퀘어 분포는 정적으로 치우친 분포이며, 0값에서 시작한다. 자유도(범주의 수 - 1)가 클수록 그래프는 오른쪽으로 치우치면서 분포의 최빈값은 더 큰 카이스퀘어값을 갖게된다.

 

 

- 카이제곱 검정의 두 가지 유형 -

 

조건에 맞는 기대빈도표를 그리고, 이 기대빈도표와 실제 데이터로부터 구한 카이스퀘어값을 임계값과 비교하여 검증 수행

  • 측정변수 1개→ 적합도 검증
  • 측정변수 2개→ 독립성 검증

1. 적합도 검증: $H_0$에 의해 예상되는 빈도분포와 표본에서 얻은 빈도분포를 비교. 획득된 표본의 비율(관찰빈도)가 $H_0$의 형태로 제시된 모집단 비율(예측빈도)에 얼마나 잘 맞는지를 검정.

$H_0$의 예
- 선호되는 것이 없다.: 서로 다른 범주 사이에서 특별히 선호되는 것이 없다. 한 범주가 다른 범주와 다른 비율을 갖고 있지 않다.
(브랜드 A, B, C 중 소비자들이 특별한 선호를 보이는 것이 없다.)
- 알려진 모집단과 차이가 없다.: 두 모집단의 구성비에 차이가 없다.
(유럽인 모집단에 대한 비율은 이미 알려진 미국인 모집단의 60%선호, 40%비선호 비율과 다르지 않다

 

  • $f_0$: 특정 범주의 관측빈도 = n
  • $f_e$: 특정 범주의 기대빈도, 예측빈도= $f_e=pn$=(범주 속의 관찰치 비율)*(표본의 크기)
  • df=C-1=(범주의 수)-1: $f_e$값이 자유로이 선택되어질 수 있는 범주의 수

 

2. 독립성 검증: $H_0$:두 변인이 각각 독립적이다' 하에 두 변인 간의 영향 관계를 평가.  '독립적'이란 한 변인의 빈도분포가 다른 변인의 범주와 연관이 되어있지 않다는 의미.  즉, 두 변인이 독립적일 때,  한 변인에 대한 빈도분포는 다른 변인의 모든 범주에 대해 동일한 비율을 지니게 된다.

$H_0$의 예:
- 일반적인 학생 모집단의 경우, 색상 선호도와 개인적 성향 간에 관계가 없다. (상관관계 가설과 유사하지만 데이터 형태가 다름)
- 학생 모집단의 경우, 개인적 성향(내, 외향)에 따라 색상 선호도 간 차이가 존재하지 않는다. 따라서 두 분포는 동일한 형태, 동일한 비율을 지닌다. (t검증/변량분석 가설과 유사하지만 데이터 형태가 다름)

 

  • 기대빈도 $f_e=\frac{f_c f_r}{n}$
  • $f_c$: 각 셀의 전체 행의 빈도
  • $f_r$: 전체 열의 빈도
  • df=(R-1)(C-1)=(열 범주의 수)(행 범주의 수)
  • 큰 카이제곱 값은 $f_c$와$f_e$ 간에 큰 차이가 있다는 의미 → 영가설 기각. 두 변인 간 관련성이 있음.

 

카이제곱 독립성 검증의 효과크기

▶ 2x2 행렬표로 형성된 데이터: 파이계수=$\sqrt{\frac{χ^2}{n}}$

  • 행렬표 내 비율에 의해 결정되며, 빈도의 크기와는 독립적이다.
  • 상관관계이기 때문에 통계적 유의미성 보다 관계의 강도를 측정한 것이다.
  • 상관관계 평가 표준을 따른다.

2x2 보다 큰 행렬표: 크래머의 V=$\sqrt{\frac{χ^2}{n(df*)}}$

  • df*: (R-1)과 (C-1) 중 작은 것
  • 분모의 자유도를 제외하면 파이계수 공식과 동일

(출처: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=lucifer246&logNo=159674349)

 

[참고: 사회과학 통계방법론의 핵심 이론]