변량분석(ANOVA): 둘 혹은 그 이상의 실험집단(혹은 모집단) 사이의 평균 차이를 측정하는 데 사용되는 가설검증 절차. 평균차이를 통해 n개의모집단 간에 차이가 있다고 결론지을 수 있을 만한 충분한 근거가 표본들 간에 있는지를 확인하는 것이 목표.
- H0: 모집단(혹은 실험집단) 사이에는 아무런 차이가 없다. 표본 사이에 차이가 관찰되었다면 이것은 단지 우연 때문이다. (표집오차) ($${\mu_1}= {\mu_2}= {\mu_3}$$)
- H1: 모집단(혹은 실험집단)은 정말 다은 평균치를 가지고 있으며, 이 모집단의 평균 차이는 각 표본들이 다른 평균을 가지고 있다는 근거가 됨. (적어도 하나의 모집단 평균이 다른 모집단 평균과 차이가 있다. 즉, 실질적 처치효과가 있다.
변량분석의 경우, 비교될 집단을 구분하는 독립변수를 요인(factor)라고 하며, 요인을 구성하는 개별 조건 혹은 값은 요인의 수준이라고 한다.
변량분석의 경우, t검증은 f통계치(ratio)로 대체하며, f통계치는 표본평균의 차이 대신 분산에 근거한다. 분산은 모든 표본평균 간의 차이를 기술하는 단일 값을 제공하기 때문이다.
t통계치와 f통계치는 같은 기본 정보를 제공한다. 큰값은 표본평균의 차이가 우연에 의해 발생할 수 있는 경우보다 더 크다는 것을 의미.
개별검증의 수가 증가할 수록 실험적 유의수준도 높아진다. 이와 달리 변량분석은 동일 가설검증에서 동시에 3개의 비교가 실행된다. 얼마나 많은 평균차이가 비교되더라도 ANOVA는 평균 차이를 측정하는데 하나의 유의수준을 가지고 하나의 검증을 사용한다. 이로써 증가한 실험적 유의수준의 문제를 방지한다.
f=(표본평균 간 분산 (차이))/(우연에 의해 기대될 수 있는 분산 (차이)) = 처치 간 변량/처치 내 변량 = 처치 간 실제 차이 / 처치 효과가 없을 경우 기대할 수 있는 차이 = (처치효과+우연에 의한 차이)/ 우연에 의한 차이(오차 error)
1. 전체자료에 대한 총변산성을 결정한다.
2. 총변산성을 아래 두 가지로 나누어 분석한다.
1) 처치 간 변량: 처치효과에 의해 야기된 변량 측정. 측정 차이 이유: 처치효과 + 우연
2) 처치 내 변량: 단지 우연에 의해 발생할 수 있는 변량 측정 측정 차이 이유: 우연(비체계적 변산성+체계적 차이)
‘처치 간 차이는 <(1)처치효과 or (2)우연>에 의해 야기된 것이다’
(2)우연적 차이는 ‘개인 차이(비체계)’와 ‘실험적 오류(체계)’에 의해 발생하며, 처치 내 변량으로 계산된다.
H0이 참일 때 F= (0+우연에 의한 차이)/우연에 의한 차이 가 되므로, 1.00 근처의 f통계치는 처치 효과가 있었다고 할 수 없다는 근거가 된다. 반대로 1보다 훨씬 큰 f통계치는 처치가 유의미한 효과를 가졌음을 뜻한다. SS전체=처치간SS+처치내SS 전체 자유도 N-1
- 처치 간 자유도 k-1
- 처치 내 자유도 {\sigma(n-1)=N-k} MS 표본변량 $${s^2}={\frac(SS)(df)}$$
F=처치간MS/처치내MS
****표 첨부****
F분포
1) F비율은 2개의 변량에서 계산된 것이기 때문에, 항상 0보다 큰 변량이다.
2) H0이 참일 때, F비율의 분모와 분자는 동일 변량을 측정한 것이므로 비율은 1 근처에 존재해야한다. 따라서 F비율의 분포는 1.00근처에 쌓이게 된다.
MS 값의 정교함이 자유도에 의존적이기 때문에 F분포의 형태는 자유도 값에 의존적이며, 큰 자유도 값이라면 거의 모든 비율은 1.00근처에 군집하는 반면, 작은 자유도 값이라면 F분포는 퍼진 형태일 것.
'공부 > 통계·ML' 카테고리의 다른 글
Data granularity와 Aggregation (0) | 2022.08.10 |
---|---|
[통계 스터디] 16. 카이스퀘어: 적합도와 독립성검증 (0) | 2022.06.03 |
[통계스터디] 14. 반복측정 변량분석 - 반복측정 ANOVA, 2요인 ANOVA (0) | 2022.05.12 |
[통계 스터디] 12. 추정 - 점추정, 구간추정, 신뢰구간 (0) | 2022.04.15 |
[통계스터디] 11. 대응/상관표본 t검증 (0) | 2022.04.08 |