Z 점수의 단점
z점수 공식은 현재 알고 있는 것 이상의 정보인 '모집단 표준편차/분산'을 필요로 한다.
사실 모수를 추정하기 위해 모수치를 알아야하는 것은 모순적!
⭐ t분포는 모집단 값 대신 표본분산($s^{2}$)이나 표본 표준편차(s)로 치환하여 표준오차를 추정한다.
👉 표준오차는 표준편차나 분산을 사용해서 계산했었다! 표본의 값들로 표준오차를 추정해보면,
- 표본분산 $s^{2}=\frac{SS}{n-1}=\frac{SS}{df}$
- 표본 표준편차 $s=\sqrt{\frac{SS}{n-1}}=\sqrt{\frac{SS}{df}}$
- 표준오차$\sigma_{M}=\frac{\sigma}{\sqrt{n}}=\sqrt{\frac{\sigma ^{2}}{n}}$
- 추정표준오차(estimated standard error) $s_{M}=\frac{s}{\sqrt{n}}=\sqrt{\frac{s ^{2}}{n}}$ : 실제 표준오차($\sigma_{M}$)의 추정. 모집단 표준편차가 알려지지 않았을 때 씀
Z | t | |
기본 가정 | 1. 표본값은 독립적인 관찰값이어야한다. 즉, 관찰값 간의 예측 가능한 관계가 없어야 한다. 2. 모집단 표본은 반드시 정상분포여야 한다. |
|
현재 알고 있는 것 이상의 정보인 '모집단 표준편차/분산' 필요 |
모집단 표준 편차 모를 때 표본분산 $s^2$으로 추정 표준오차 계산 |
|
공식 | $z=\frac{M-\mu}{\sigma_{M}}=\frac{M-\mu}{\sqrt{\frac{\sigma^{2}}{n}}}$ 모집단 표준편차 or 분산 필요 |
$t=\frac{M-\mu}{s_{M}}=\frac{M-\mu}{\sqrt{\frac{s^{2}}{n}}}$ 모집단 값 대신 표본분산 or 표본 표준편차 |
$z=\frac{(데이터에서 얻은 표본평균 - H_{0}에서 가정한 모집단평균)}{표준오차}$ | $t=\frac{(데이터에서 얻은 표본평균 - H_{0}에서 가정한 모집단평균)}{추정 표준오차}$ | |
분포 모양 | ![]() t분포가 더 평평하고 밖으로 퍼진 모양 t분포는 자유도 값이 클수록 정규분포에 가까워진다. |
|
임계 영역 | 정규분포표 | t 분포표 (df 값 필요) |
효과 측정 | 코헨의 $d=\frac{평균차이(M-$\mu$)}{표준편차\sigma}$ | 코헨의 $d=\frac{평균차이(M-$\mu$)}{표본표준편차s}$ |
$r^{2}=\frac{t^{2}}{t^{2}+df}$ |
👉 표준편차에서 분산으로 집중을 옮기는 이유
- 표본분산은 unbiased 추정치이다. 따라서 표준오차를 추정을 위한 가장 정밀한 방법은 모집단분산을 추정값인 표본분산을 이용하는 것이다.
- 표준편차 대신 분산이 요구되는 t검증이 있으므로 추정 표준오차는 $\sqrt{\frac{표본분산}{표본크기}}$로 계산할 것이다.
👉 얼마나 t검증이 z점수에 근접한가를 보기 위해서는 표본분산이 얼마나 모집단분산에 근접하는지 알아야한다.
- 자유도 df
그림처럼 t분포는 더 평평하고 밖으로 퍼진 모양이며, 자유도 값이 클수록 t분포는 정규분포에 가까워진다.
자유도 값이 크다는 것은 표본이 클수록 모집단의 성질을 더 잘 대표하는 뜻이기도 하다.
즉, 자유도는 표본분산과 연결되어있으며, t검증이 z검증을 얼마나 잘 대표하는지 보여준다.
- 표본의 크기 n
어떤 특정 크기의 모든 가능한 표본을 모은다면, z점수 결과의 전체값은 z점수 분포를 형성한다. (t도 동일)
큰 표본, 넓은 자유도를 가진 t분포일수록 정규분포에 가까워진다.
- 변이성 관점
t분포는 자유도 값이 작을 때, 정상적인 형태를 띠는 z점수 분포보다 더 많은 변이성을 갖는다.
z점수의 분자인 $M-\mu$는 M의 값이 표본에 따라 달라지기 때문에 다른 값을 가질 수 있다.
하지만 분모인 $\sigma_{M}$은 일정하다. 표준오차는 모집단분산에서 얻었기에 표본에 따라 달라지지 않기 때문이다.
반면, t점수에서의 표준오차는 추정치이기 때문에 $s_{M}$은 표본에 따라 값이 변화하는 표본분산에 기초한다.
따라서 각 표본들은 같은 M값이어도 서로 다른 t값을 갖게 된다.
t분포는 z분포보다 변산성을 많이 가지므로 더 낮고 퍼진 형태
자유도가 증가할 수록 $s_{M}$은 $\sigma_{M}$을 더 잘 추정할 것이고, 거의 똑같아질 수 있다.
👉 t검증
검증 과정은 z검증과 동일하며, 검증 비율은 t분포표에서 찾는다.
첫열에서 자유도를 찾고, 첫행의 꼬리 비율에 따라 보면 된다.
자유도가 커질 수록 정규분포표의 검증비율과 유사해지는 것을 확인할 수 있다.
모든 자유도가 있지 않으므로, 없다면 주어진 자유도보다 더 큰 임계값의 자유도로 갈음한다. 만약 t검증 표본이 가장 큰 값보다도 크다면 데이터가 기각영역에 있다고 확신할 수 있기에, 기각할 수 있기 때문이다.
양방향 검증 방법 | 일방향 검증 |
일반적인 경우에 많이 쓰임 | 탐색 조사, 파일럿 테스트 등 특정 실험에서 쓰임 |
👉 효과측정
t검증의 코헨의 d = 평균차이/표본표준편차
점수의 변산성이 실험조작에 의해 얼마나 설명되느냐를 측정하여 효과측정이 가능하다.
효과의 범위, 크기 측정을 위해 평균에서의 편차와 SS(표본의 편차 제곱의 합) 두가지를 측정한다.
SS를 통해 처치 효과가 제거되었을 때, 얼만큼의 변이성 정도가 감소했는지 계산가능하다.
즉, 처치효과의 제거가 감소시키는만큼을 처치에 의해 설명된 변량의 비율이라고 하며, $r^{2}$이라 쓴다.
SS값으로 구하기보단 아래 공식으로 구하자.
$$r^{2}=\frac{t^{2}}{t^{2}+df}$$
(r은 상관관계의 범위 평가에 쓰이는데, $r^{2}$으로 확장 적용시켰다.)
유의미한 효과는 큰 효과를 의미하지는 않는다. 아주 작은 효과도 표본이 매우 크면 유의할 수 있기 때문! 가설 검증은 효과의 범위와 표본의 크기에 모두 영향을 받는다.
효과 측정이 필요한 이유이다. 같은 효과 값이더라도 표본의 크기에 따라 기각 여부가 달라질 수 있다.
[참고] 사회과학 통계방법론의 핵심 이론 (커뮤니케이션북스)
'공부' 카테고리의 다른 글
[통계 스터디] 8. 가설 검증 - 불확실성, 오차, 검증력, 일방향/양방향 검증 (0) | 2022.03.18 |
---|---|
[통계 스터디] 7. 확률과 표본 - 표본평균의 분포 (0) | 2022.03.04 |
[통계 스터디] 6. 확률 - 확률과 정규분포 (0) | 2022.02.23 |
[통계 스터디] 5. 표준점수 - 표준화된 분포, Z 점수 (0) | 2022.02.16 |
[통계 스터디] 4. 변산성(Variability) - 범위, 사분범위, 분산, 표준편차 (0) | 2022.02.09 |