[통계 스터디] 4. 변산성(Variability) - 범위, 사분범위, 분산, 표준편차

공부

[통계 스터디] 4. 변산성(Variability) - 범위, 사분범위, 분산, 표준편차

jiyoonmik 2022. 2. 9. 16:26

변산성(Variability)이란.

: 분포에서 점수가 퍼져 있거나 밀집된 정도에 관한 양적 측정을 제공한다.

3장의 집중경향치가 무엇을 중심으로 모여있는지를 나타낸다면, 변산성은 그 모여있는 정도를 의미한다.

바람직한 변산성의 측정은 (1)분포를 기술하고 (2)개개 or 집단의 값이 전체 분포를 얼마나 잘 대변하는 지 측정한다.

(1) 평균값으로부터의 '거리' 개념으로 데이터들이 밀집해있는지 퍼져있는지를 말해줌

(2) 모집단을 대표하는 표본 사용 시, 오차에 대한 예측 정보 제공 (작은 표본으로 모집단을 추론하는 추론 통계Inferential에서 중요)

변산성을 측정하는 3가지 측정치

범위
사분범위
표준편차 ⭐⭐

1. 범위(Range)란.

: 최대값의 상위 근삿값 - 최소값의 하위 근삿값 (분포 내 점수가 모수 숫자일 때 최대값-최소값+1)

→ 극단값 2개에 의해 계산해 분포 내의 다른 점수 무시한다는 단점으로 사분위 간 범위 이용

→ 이상치를 제거하면 범위값이 줄어든다.

2. 사분위 간 범위(Interquartile Range, IQR)란.

: 분포의 중앙 50% 값의 범위 (Q3-Q1)

변산성 기술 시, 준사분위 범위 사용

준사분위 범위: 사분위 범위의 반. 분포의 중앙값으로부터 중앙 50%의 결정 경계까지의 거리.

→ 예외적인 값 영향 덜 받는 안정적 측정법.

→ 하지만 실제 개별 값을 고려하지 않으므로 분산의 모양에 대한 설명력 부족

사분위 간 범위(IQR)는 데이터 범위를 시각화한 boxplot(상자수염그림)을 그릴 때 사용된다. 보통 수염 바깥의 값 즉, (Q1 - 1.5*IQR)보다 작거나 (Q3 + 1.5*IQR)보다 큰 값을 이상치outlier라고 한다.

3. 표준편차(Standard Deviation)란.

평균으로부터의 평균 거리. 분산의 제곱근.

(눈대중으로 표준편차는 범위의 1/4 정도)

정규분포의 확률밀도 함수. 표준편차의 배수에 따라 분포를 구간화하여 신뢰구간을 맹근다. 맨 아래의 [예습]부분 참고.

[표준편차 도출 단계]

1단계. 개개 값의 편차 X-μ를 구하고

2단계. 편차의 산술평균을 구하면 언제나 0이다. (+-값 상쇄되므로)

3단계. 부호를 없애기 위해 각 편차 값을 제곱X-μ하여 분산을 구한다. → 제곱거리를 기초로 변산성 측정 가능케 함

4단계. 분산의 제곱근으로 제곱된 모든 거리를 표준화한 값인 표준편차를 구한다.

편차: 평균으로부터의 거리와 방향. X-μ
분산(Variance): 제곱된 편차의 평균. SS/N
자승화(Sum of Square, SS): 편차점수 제곱의 합. Σ(X-μ)² 정의식 = ΣX²-(ΣX)²/N 간편계산식

모집단 표준편차 σ=√SS/N

모집단 분산 σ²=SS/N

표본의 표준편차와 분산 역시 앞선 모집단의 표준편차와 분산을 구하는 과정과 동일하나 표기의 차이가 있다.

※ 표본은 그것이 추출된 모집단의 대표성을 가지지만, 평균에 가까운 개체값이 더 쉽게 추출되기 때문에 항상 모집단보다 덜 가변적이라는특징을 갖는다(=분포가 덜 퍼져있다, 분산이 작다). 이 때문에 표본의 분산을 구할 때는 SS를 n 대신 (n-1)로 나누어 더 큰 결과값으로 조정해준다.

표본의 평균 M, 표본의 크기 n

표본의 편차 X-M

표본의 SS=Σ(X-M)²=ΣX²-(ΣX)²/n ⭐

표본 표준편차(SD) s=√SS/(n-1)

표본 분산 s²=SS/(n-1)

→ 표본 분산s²을 구하기 위해 표본평균M을 알아야 한다는 점에서 자유도(Degrees of Freedom, df) 개념이 등장한다.

자유도(Degrees of Freedom, df) : 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수

예를 들어, M=5, n=3인 표본에서 첫째, 둘째 값은 자유롭게 선택이 가능하다. X1=2, X2=9로 선택되었을 때, X3은 반드시 4가 되어야 하기에 여기서는 (n-1)인 2개의 값만 변화에 자유롭다.

즉, 표본평균M으로 인해 크기가 n인 표본의 값들 중 마지막 값이 제한되게 되는 것이다. (=표본 변산성에 제한을 두는 것, 편차의 합은 0이라는 제약조건이 자유도를 1 감소시킴)

따라서 표본은 (n-1)의 자유도를 갖게 된다.

표본 표준편차(SD) s=√SS/(n-1)=√SS/df

표본 분산 s²=SS/(n-1)=SS/df

표준편차와 분산, 그로부터 한걸음 더

▶ 어긋나지 않은(unbiased) 통계치: 일부 표본의 분산은 모집단의 값보다 지나치게 크거나 작지만, 모든 표본분산의 평균은 모집단분산에 대한 정확한 추정치를 제공한다. 모수치와 표본 통계치의 평균이 다르다면 이 통계치는 편향이 있다(biased)고 말할 수 있다.

표본의 자유도 (n-1) 역시 표본분산이 모집단분산의 추정을 정확하고 어긋나지 않게 하기 위함이다. 책의 예문을 통해 표본평균과 (n-1)을 사용한 표본변량 모두 모집단과 유사한 추정치를 제공함을 알 수 있다.

측정오차(measurement error): 관측치와 실제 값의 차이
  측정오차가 존재하면, (관측치)=(실제 값)+(측정오차)
  측정오차의 대략적인 크기는 관측치들의 표준편차(SD)를 통해 알 수 있음
  표준편차(SD)의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 줌
편향(편의, bias): 방향성을 갖는 하나의 체계적인 오차
측정오차와 함께 편향이 있으면, (관측치)=(실제 값)+(편향)+(측정오차)
이상치(이탈치, outlier): 극단적인 관측치

▶ 표준편차와 기술통계: 표준편차는 전체 분포를 기술하는 데 있어, 평균으로부터의 전형적이고 대체적인 거리를 측정함으로써 개별 점수를 해석할 수 있도록 한다.

▶ 분산과 추론통계: 표본의 분산은 각각의 값과 표본이 얼마나 모집단을 대표하는지에 대한 지표를 제공한다. 표본을 사용할 때 얼만큼의 오차가 발생하는가를 결정하는 요소이다. 또한 표본의 분산은 표본의 자료에서 얼마나 쉽게 의미있는 유형을 찾아낼 수 있을지에 대한 직접적인 영향력을 갖는다. 일반적으로 표본의 분산이 증가할수록 데이터에 존재하는 패턴, 체계적인 유형을 발견하기 어렵다고 한다.

▶ 척도의 변형: 계산의 편의를 위해 각 점수에 일정한 숫자를 더해도 표준편차는 변하지 않는다. 각 개체의 값에 일정한 숫자를 곱해 구한 표준편차는 기존의 표준편차를 같은 수로 곱한 것과 같다.

[참고] 사회과학 통계방법론의 핵심 이론 (커뮤니케이션북스)

[예습]

표준편차는 기초통계량, 정규분포, 신뢰구간 등등 에서도 계속해서 보일 중요 개념!

잠깐 예습을 하자면

표본집단: 모집단에서 추출한 표본. 하나의 표본의 평균을 (내평균, x̅, x bar)라고 한다.
표본평균집단: x̅의 분포로, 한 표본평균이 얼마나 나올 지 확률을 분포로 (가상으로) 예측해 그렸다고 생각하자. 그래서 x̅는 표본에 따라 다른 값을 가지는 확률변수! 이 분포 상에서 어떤 표본평균 x̅ 값이 어떤 신뢰구간에 포함되어있을 확률이 신뢰도이다.
표본평균집단의 표준편차: (모표준편차 σ/√표본크기n)로 계산된다. 보통 표본평균집단의 표준편차의 배수(흔히 1.54, 1.96, 2.58...)에 따라 신뢰구간이 그려진다.

신뢰구간: 모집단의 모수값이 포함될 것으로 예측되는 값의 구간
신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것
신뢰수준 P(-1.96<Z<1.96)=0.95가 되는 신뢰구간을 찾는 방식으로 문제 풀이가 진행되더라
신뢰도: 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률로 다른 개념임!

예습은 여기까지... 아예 따로 정리를 하자!

[참고]

https://m.blog.naver.com/baboedition/220916281966

3강. (통계-3) 신뢰구간

안녕하세요~ 너무 친절한 콩수학의 수리영역 강의예요. 콩수학 강의는 수능을 위한 중요개념과 기출문제풀...

blog.naver.com

https://todayisbetterthanyesterday.tistory.com/4

헷갈리는 통계기본 - 신뢰구간/신뢰도/유의수준/유의확률/검정력

신뢰구간 - 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다. - 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰

todayisbetterthanyesterday.tistory.com

https://angeloyeo.github.io/2021/01/05/confidence_interval.html

신뢰 구간의 의미 - 공돌이의 수학정리노트

angeloyeo.github.io

'공부' 카테고리의 다른 글

[통계 스터디] 9. t검증 (0)	2022.03.28
[통계 스터디] 8. 가설 검증 - 불확실성, 오차, 검증력, 일방향/양방향 검증 (0)	2022.03.18
[통계 스터디] 7. 확률과 표본 - 표본평균의 분포 (0)	2022.03.04
[통계 스터디] 6. 확률 - 확률과 정규분포 (0)	2022.02.23
[통계 스터디] 5. 표준점수 - 표준화된 분포, Z 점수 (0)	2022.02.16

현재글[통계 스터디] 4. 변산성(Variability) - 범위, 사분범위, 분산, 표준편차

공부 & 기록

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

랄라라