변산성(Variability)이란.
: 분포에서 점수가 퍼져 있거나 밀집된 정도에 관한 양적 측정을 제공한다.
3장의 집중경향치가 무엇을 중심으로 모여있는지를 나타낸다면, 변산성은 그 모여있는 정도를 의미한다.
바람직한 변산성의 측정은 (1)분포를 기술하고 (2)개개 or 집단의 값이 전체 분포를 얼마나 잘 대변하는 지 측정한다.
(1) 평균값으로부터의 '거리' 개념으로 데이터들이 밀집해있는지 퍼져있는지를 말해줌
(2) 모집단을 대표하는 표본 사용 시, 오차에 대한 예측 정보 제공 (작은 표본으로 모집단을 추론하는 추론 통계Inferential에서 중요)
변산성을 측정하는 3가지 측정치
- 범위
- 사분범위
- 표준편차 ⭐⭐
1. 범위(Range)란.
: 최대값의 상위 근삿값 - 최소값의 하위 근삿값 (분포 내 점수가 모수 숫자일 때 최대값-최소값+1)
→ 극단값 2개에 의해 계산해 분포 내의 다른 점수 무시한다는 단점으로 사분위 간 범위 이용
→ 이상치를 제거하면 범위값이 줄어든다.
2. 사분위 간 범위(Interquartile Range, IQR)란.
: 분포의 중앙 50% 값의 범위 (Q3-Q1)
변산성 기술 시, 준사분위 범위 사용
- 준사분위 범위: 사분위 범위의 반. 분포의 중앙값으로부터 중앙 50%의 결정 경계까지의 거리.
→ 예외적인 값 영향 덜 받는 안정적 측정법.
→ 하지만 실제 개별 값을 고려하지 않으므로 분산의 모양에 대한 설명력 부족

3. 표준편차(Standard Deviation)란.
평균으로부터의 평균 거리. 분산의 제곱근.
(눈대중으로 표준편차는 범위의 1/4 정도)

[표준편차 도출 단계]
1단계. 개개 값의 편차 X-μ를 구하고
2단계. 편차의 산술평균을 구하면 언제나 0이다. (+-값 상쇄되므로)
3단계. 부호를 없애기 위해 각 편차 값을 제곱X-μ하여 분산을 구한다. → 제곱거리를 기초로 변산성 측정 가능케 함
4단계. 분산의 제곱근으로 제곱된 모든 거리를 표준화한 값인 표준편차를 구한다.
- 편차: 평균으로부터의 거리와 방향. X-μ
- 분산(Variance): 제곱된 편차의 평균. SS/N
- 자승화(Sum of Square, SS): 편차점수 제곱의 합. Σ(X-μ)² 정의식 = ΣX²-(ΣX)²/N 간편계산식
모집단 표준편차 σ=√SS/N
모집단 분산 σ²=SS/N
표본의 표준편차와 분산 역시 앞선 모집단의 표준편차와 분산을 구하는 과정과 동일하나 표기의 차이가 있다.
※ 표본은 그것이 추출된 모집단의 대표성을 가지지만, 평균에 가까운 개체값이 더 쉽게 추출되기 때문에 항상 모집단보다 덜 가변적이라는특징을 갖는다(=분포가 덜 퍼져있다, 분산이 작다). 이 때문에 표본의 분산을 구할 때는 SS를 n 대신 (n-1)로 나누어 더 큰 결과값으로 조정해준다.
표본의 평균 M, 표본의 크기 n
표본의 편차 X-M
표본의 SS=Σ(X-M)²=ΣX²-(ΣX)²/n ⭐
표본 표준편차(SD) s=√SS/(n-1)
표본 분산 s²=SS/(n-1)
→ 표본 분산s²을 구하기 위해 표본평균M을 알아야 한다는 점에서 자유도(Degrees of Freedom, df) 개념이 등장한다.
- 자유도(Degrees of Freedom, df) : 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수
예를 들어, M=5, n=3인 표본에서 첫째, 둘째 값은 자유롭게 선택이 가능하다. X1=2, X2=9로 선택되었을 때, X3은 반드시 4가 되어야 하기에 여기서는 (n-1)인 2개의 값만 변화에 자유롭다.
즉, 표본평균M으로 인해 크기가 n인 표본의 값들 중 마지막 값이 제한되게 되는 것이다. (=표본 변산성에 제한을 두는 것, 편차의 합은 0이라는 제약조건이 자유도를 1 감소시킴)
따라서 표본은 (n-1)의 자유도를 갖게 된다.
표본 표준편차(SD) s=√SS/(n-1)=√SS/df
표본 분산 s²=SS/(n-1)=SS/df
표준편차와 분산, 그로부터 한걸음 더
▶ 어긋나지 않은(unbiased) 통계치: 일부 표본의 분산은 모집단의 값보다 지나치게 크거나 작지만, 모든 표본분산의 평균은 모집단분산에 대한 정확한 추정치를 제공한다. 모수치와 표본 통계치의 평균이 다르다면 이 통계치는 편향이 있다(biased)고 말할 수 있다.
표본의 자유도 (n-1) 역시 표본분산이 모집단분산의 추정을 정확하고 어긋나지 않게 하기 위함이다. 책의 예문을 통해 표본평균과 (n-1)을 사용한 표본변량 모두 모집단과 유사한 추정치를 제공함을 알 수 있다.
- 측정오차(measurement error): 관측치와 실제 값의 차이
측정오차가 존재하면, (관측치)=(실제 값)+(측정오차)
측정오차의 대략적인 크기는 관측치들의 표준편차(SD)를 통해 알 수 있음
표준편차(SD)의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 줌 - 편향(편의, bias): 방향성을 갖는 하나의 체계적인 오차
측정오차와 함께 편향이 있으면, (관측치)=(실제 값)+(편향)+(측정오차) - 이상치(이탈치, outlier): 극단적인 관측치
▶ 표준편차와 기술통계: 표준편차는 전체 분포를 기술하는 데 있어, 평균으로부터의 전형적이고 대체적인 거리를 측정함으로써 개별 점수를 해석할 수 있도록 한다.
▶ 분산과 추론통계: 표본의 분산은 각각의 값과 표본이 얼마나 모집단을 대표하는지에 대한 지표를 제공한다. 표본을 사용할 때 얼만큼의 오차가 발생하는가를 결정하는 요소이다. 또한 표본의 분산은 표본의 자료에서 얼마나 쉽게 의미있는 유형을 찾아낼 수 있을지에 대한 직접적인 영향력을 갖는다. 일반적으로 표본의 분산이 증가할수록 데이터에 존재하는 패턴, 체계적인 유형을 발견하기 어렵다고 한다.
▶ 척도의 변형: 계산의 편의를 위해 각 점수에 일정한 숫자를 더해도 표준편차는 변하지 않는다. 각 개체의 값에 일정한 숫자를 곱해 구한 표준편차는 기존의 표준편차를 같은 수로 곱한 것과 같다.
[참고] 사회과학 통계방법론의 핵심 이론 (커뮤니케이션북스)
[예습]
표준편차는 기초통계량, 정규분포, 신뢰구간 등등 에서도 계속해서 보일 중요 개념!
잠깐 예습을 하자면
- 표본집단: 모집단에서 추출한 표본. 하나의 표본의 평균을 (내평균, x̅, x bar)라고 한다.
- 표본평균집단: x̅의 분포로, 한 표본평균이 얼마나 나올 지 확률을 분포로 (가상으로) 예측해 그렸다고 생각하자. 그래서 x̅는 표본에 따라 다른 값을 가지는 확률변수! 이 분포 상에서 어떤 표본평균 x̅ 값이 어떤 신뢰구간에 포함되어있을 확률이 신뢰도이다.
- 표본평균집단의 표준편차: (모표준편차 σ/√표본크기n)로 계산된다. 보통 표본평균집단의 표준편차의 배수(흔히 1.54, 1.96, 2.58...)에 따라 신뢰구간이 그려진다.

- 신뢰구간: 모집단의 모수값이 포함될 것으로 예측되는 값의 구간
- 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것
- 신뢰수준 P(-1.96<Z<1.96)=0.95가 되는 신뢰구간을 찾는 방식으로 문제 풀이가 진행되더라
- 신뢰도: 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률로 다른 개념임!
예습은 여기까지... 아예 따로 정리를 하자!
[참고]
https://m.blog.naver.com/baboedition/220916281966
3강. (통계-3) 신뢰구간
안녕하세요~ 너무 친절한 콩수학의 수리영역 강의예요. 콩수학 강의는 수능을 위한 중요개념과 기출문제풀...
blog.naver.com
https://todayisbetterthanyesterday.tistory.com/4
헷갈리는 통계기본 - 신뢰구간/신뢰도/유의수준/유의확률/검정력
신뢰구간 - 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다. - 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰
todayisbetterthanyesterday.tistory.com
https://angeloyeo.github.io/2021/01/05/confidence_interval.html
신뢰 구간의 의미 - 공돌이의 수학정리노트
angeloyeo.github.io
'공부' 카테고리의 다른 글
[통계 스터디] 9. t검증 (0) | 2022.03.28 |
---|---|
[통계 스터디] 8. 가설 검증 - 불확실성, 오차, 검증력, 일방향/양방향 검증 (0) | 2022.03.18 |
[통계 스터디] 7. 확률과 표본 - 표본평균의 분포 (0) | 2022.03.04 |
[통계 스터디] 6. 확률 - 확률과 정규분포 (0) | 2022.02.23 |
[통계 스터디] 5. 표준점수 - 표준화된 분포, Z 점수 (0) | 2022.02.16 |