공부

[통계 스터디] 4. 변산성(Variability) - 범위, 사분범위, 분산, 표준편차

jiyoonmik 2022. 2. 9. 16:26

변산성(Variability)이란.

: 분포에서 점수가 퍼져 있거나 밀집된 정도에 관한 양적 측정을 제공한다.

3장의 집중경향치가 무엇을 중심으로 모여있는지를 나타낸다면, 변산성은 그 모여있는 정도를 의미한다.

 

바람직한 변산성의 측정은 (1)분포를 기술하고 (2)개개 or 집단의 값이 전체 분포를 얼마나 잘 대변하는 지 측정한다.

(1) 평균값으로부터의 '거리' 개념으로 데이터들이 밀집해있는지 퍼져있는지를 말해줌

(2) 모집단을 대표하는 표본 사용 시, 오차에 대한 예측 정보 제공 (작은 표본으로 모집단을 추론하는 추론 통계Inferential에서 중요)

 

변산성을 측정하는 3가지 측정치

  • 범위
  • 사분범위
  • 표준편차 ⭐⭐

1. 범위(Range)란.

: 최대값의 상위 근삿값 - 최소값의 하위 근삿값 (분포 내 점수가 모수 숫자일 때 최대값-최소값+1)

→ 극단값 2개에 의해 계산해 분포 내의 다른 점수 무시한다는 단점으로 사분위 간 범위 이용

→ 이상치를 제거하면 범위값이 줄어든다.

 

2. 사분위 간 범위(Interquartile Range, IQR)란.

: 분포의 중앙 50% 값의 범위 (Q3-Q1)

변산성 기술 시, 준사분위 범위 사용

  • 준사분위 범위: 사분위 범위의 반. 분포의 중앙값으로부터 중앙 50%의 결정 경계까지의 거리. 

→ 예외적인 값 영향 덜 받는 안정적 측정법.

→ 하지만 실제 개별 값을 고려하지 않으므로 분산의 모양에 대한 설명력 부족

 

사분위 간 범위(IQR)는 데이터 범위를 시각화한 boxplot(상자수염그림)을 그릴 때 사용된다. 보통 수염 바깥의 값 즉, (Q1 - 1.5*IQR)보다 작거나 (Q3 + 1.5*IQR)보다 큰 값을 이상치outlier라고 한다.

 

3. 표준편차(Standard Deviation)란.

평균으로부터의 평균 거리. 분산의 제곱근.

(눈대중으로 표준편차는 범위의 1/4 정도)

 

정규분포의 확률밀도 함수. 표준편차의 배수에 따라 분포를 구간화하여 신뢰구간을 맹근다. 맨 아래의 [예습]부분 참고.

[표준편차 도출 단계]

1단계. 개개 값의 편차 X-μ를 구하고

2단계. 편차의 산술평균을 구하면 언제나 0이다. (+-값 상쇄되므로)

3단계. 부호를 없애기 위해 각 편차 값을 제곱X-μ하여 분산을 구한다. → 제곱거리를 기초로 변산성 측정 가능케 함

4단계. 분산의 제곱근으로 제곱된 모든 거리를 표준화한 값인 표준편차를 구한다.

  • 편차: 평균으로부터의 거리와 방향. X-μ
  • 분산(Variance): 제곱된 편차의 평균. SS/N
  • 자승화(Sum of Square, SS): 편차점수 제곱의 합. Σ(X-μ)² 정의식 = ΣX²-(ΣX)²/N 간편계산식

모집단 표준편차 σ=√SS/N

모집단 분산 σ²=SS/N

 

표본의 표준편차와 분산 역시 앞선 모집단의 표준편차와 분산을 구하는 과정과 동일하나 표기의 차이가 있다.

표본은 그것이 추출된 모집단의 대표성을 가지지만, 평균에 가까운 개체값이 더 쉽게 추출되기 때문에 항상 모집단보다 덜 가변적이라는특징을 갖는다(=분포가 덜 퍼져있다, 분산이 작다). 이 때문에 표본의 분산을 구할 때는 SS를 n 대신 (n-1)로 나누어 더 큰 결과값으로 조정해준다.

 

표본의 평균 M, 표본의 크기 n

표본의 편차 X-M

표본의 SS=Σ(X-M)²=ΣX²-(ΣX)²/n ⭐

 

표본 표준편차(SD) s=√SS/(n-1)

표본 분산 s²=SS/(n-1)

 

→ 표본 분산s²을 구하기 위해 표본평균M을 알아야 한다는 점에서 자유도(Degrees of Freedom, df) 개념이 등장한다.

  • 자유도(Degrees of Freedom, df) : 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수

예를 들어, M=5, n=3인 표본에서 첫째, 둘째 값은 자유롭게 선택이 가능하다. X1=2, X2=9로 선택되었을 때, X3은 반드시 4가 되어야 하기에 여기서는 (n-1)인 2개의 값만 변화에 자유롭다. 

즉, 표본평균M으로 인해 크기가 n인 표본의 값들 중 마지막 값이 제한되게 되는 것이다. (=표본 변산성에 제한을 두는 것, 편차의 합은 0이라는 제약조건이 자유도를 1 감소시킴)

 

따라서 표본은 (n-1)의 자유도를 갖게 된다.

표본 표준편차(SD) s=√SS/(n-1)=√SS/df

표본 분산 s²=SS/(n-1)=SS/df

 


표준편차와 분산, 그로부터 한걸음 더

▶ 어긋나지 않은(unbiased) 통계치: 일부 표본의 분산은 모집단의 값보다 지나치게 크거나 작지만, 모든 표본분산의 평균은 모집단분산에 대한 정확한 추정치를 제공한다. 모수치와 표본 통계치의 평균이 다르다면 이 통계치는 편향이 있다(biased)고 말할 수 있다.

표본의 자유도 (n-1) 역시 표본분산이 모집단분산의 추정을 정확하고 어긋나지 않게 하기 위함이다. 책의 예문을 통해 표본평균과 (n-1)을 사용한 표본변량 모두 모집단과 유사한 추정치를 제공함을 알 수 있다.

  • 측정오차(measurement error): 관측치와 실제 값의 차이
      측정오차가 존재하면, (관측치)=(실제 값)+(측정오차)
      측정오차의 대략적인 크기는 관측치들의 표준편차(SD)를 통해 알 수 있음
      표준편차(SD)의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 줌
  • 편향(편의, bias): 방향성을 갖는 하나의 체계적인 오차
      측정오차와 함께 편향이 있으면, (관측치)=(실제 값)+(편향)+(측정오차)
  • 이상치(이탈치, outlier): 극단적인 관측치

 

 표준편차와 기술통계: 표준편차는 전체 분포를 기술하는 데 있어, 평균으로부터의 전형적이고 대체적인 거리를 측정함으로써 개별 점수를 해석할 수 있도록 한다. 

 

 분산과 추론통계: 표본의 분산은 각각의 값과 표본이 얼마나 모집단을 대표하는지에 대한 지표를 제공한다. 표본을 사용할 때 얼만큼의 오차가 발생하는가를 결정하는 요소이다. 또한 표본의 분산은 표본의 자료에서 얼마나 쉽게 의미있는 유형을 찾아낼 수 있을지에 대한 직접적인 영향력을 갖는다. 일반적으로 표본의 분산이 증가할수록 데이터에 존재하는 패턴, 체계적인 유형을 발견하기 어렵다고 한다.

 

 척도의 변형: 계산의 편의를 위해 각 점수에 일정한 숫자를 더해도 표준편차는 변하지 않는다. 각 개체의 값에 일정한 숫자를 곱해 구한 표준편차는 기존의 표준편차를 같은 수로 곱한 것과 같다.

 

[참고] 사회과학 통계방법론의 핵심 이론 (커뮤니케이션북스)

 


[예습]

표준편차는 기초통계량, 정규분포, 신뢰구간 등등 에서도 계속해서 보일 중요 개념!

잠깐 예습을 하자면

  • 표본집단: 모집단에서 추출한 표본. 하나의 표본의 평균을 (내평균, x̅, x bar)라고 한다.
  • 표본평균집단: x̅의 분포로, 한 표본평균이 얼마나 나올 지 확률을 분포로 (가상으로) 예측해 그렸다고 생각하자. 그래서 x̅는 표본에 따라 다른 값을 가지는 확률변수! 이 분포 상에서 어떤 표본평균  x̅ 값이 어떤 신뢰구간에 포함되어있을 확률이 신뢰도이다.
  • 표본평균집단의 표준편차: (모표준편차 σ/√표본크기n)로 계산된다. 보통 표본평균집단의 표준편차의 배수(흔히 1.54, 1.96, 2.58...)에 따라 신뢰구간이 그려진다.

정규분포의 신뢰구간

  • 신뢰구간: 모집단의 모수값이 포함될 것으로 예측되는 값의 구간
  • 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것
  • 신뢰수준 P(-1.96<Z<1.96)=0.95가 되는 신뢰구간을 찾는 방식으로 문제 풀이가 진행되더라
  • 신뢰도: 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률로 다른 개념임!

예습은 여기까지... 아예 따로 정리를 하자!

 

[참고]

https://m.blog.naver.com/baboedition/220916281966

 

3강. (통계-3) 신뢰구간

안녕하세요~ 너무 친절한 콩수학의 수리영역 강의예요. 콩수학 강의는 수능을 위한 중요개념과 기출문제풀...

blog.naver.com

https://todayisbetterthanyesterday.tistory.com/4

 

헷갈리는 통계기본 - 신뢰구간/신뢰도/유의수준/유의확률/검정력

신뢰구간 - 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다. - 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰

todayisbetterthanyesterday.tistory.com

https://angeloyeo.github.io/2021/01/05/confidence_interval.html

 

신뢰 구간의 의미 - 공돌이의 수학정리노트

 

angeloyeo.github.io