공부

[통계 스터디] 7. 확률과 표본 - 표본평균의 분포

jiyoonmik 2022. 3. 4. 10:11

큰 표본의 z점수와 확률의 개념

 

1. 표본과 표집오차

표집오차(표본오차, Sampling Error): 표본의 통계치와 그에 대응하는 모집단 모수치와의 차이 혹은 오차

 

표본변수이다.

표본은 모두가 동일하지 않으며, 각각 다른 평균, 표준편차를 갖는다. 

 

2. 표본평균의 분포(Distribution of Sample Means)란.

표본평균 X-bar로 만들어진 표집분표의 도식 [출처: 두두의 심리블로그]

한 모집단에서 추출될 수 있는, 일정한 크기(n)의 모든 가능한 무작위 표본이 갖는 평균의 집합이다.

모집단에서 일정한 크기의 무작위 표본을 추출한 뒤, 표본의 평균을 계산하는 과정을 추출 가능한 모든 표본에 반복하여 만든다.

모든 가능한 표본을 포함하며, 표본평균의 분포의 값들은 개별 값이 아니라 통계치(표본평균, M, X-bar)이다.

 

이 통계치들은 표본에서 얻은 것이기에 통계치의 분포를 표집분포라고 부른다.

표집분포(Sampling Distribution)는 하나의 모집단으로부터, 일정한 크기의 가능한 모든 표본을 추출하여 얻은 통계치의 분포다.

즉, 표본평균의 분포평균의 표집분포로서, 표집분포의 한 예가 되는 것이다. 

 

표본평균은 모집단 평균 주위로 쌓이는 경향이 있고, 정규분포의 형태와 가까우며, 표본평균의 분포를 이용해 표본평균과 관련된 확률문제를 풀 수 있다. 

 

⭐중심극한정리(Central limit theorem)

: 추론 통계의 근간으로서, 평균μ과 표준편차σ가 있는 어떤 모집단에서, 표본 크기가 n인 표본평균분포는 평균μ과 표준편차σ/√n을 갖게되며, n이 무한에 근사할 수록 정규분포에 가까워진다. 

이로부터

1. 어떤 형태의 평균 혹은 표준편차든 그 조건에 상관없이, 어느 모집단이든 그 표본평균분포에 대해서 기술할 수 있다.

2. 표본평균분포는 표본의 크기가 충분히 커지면, 즉 30에 이르면 분포는 거의 완전한 정규분포가 된다.

 

→ 중심극한정리로 규정되는 표본평균분포의 특징: ①모양, ②집중경향성, ③변산성

 

  ① 모양

: 표본의 모집단이 정규분포일 때 표본의 크기가 충분히 커지면, 즉 30이상일 때, 표본평균의 분포는 정규분포가 되는 경향이 있다. (추출된 표본의 평균들이 정규분포 형태를 띠면서 모딥단 평균μ 주위에 쌓이기 때문에)

  ② 평균 = M의 기댓값(μM. μ와 일치)

: 통계치가 Unbiased일 때, 표본평균분포의 평균은 모집단 평균(μ)과 일치하며, 이를 평균(M)에 대한 기댓값이라고 부른다.

  ③ 표준편차 = 평균 M의 표준오차(Standard Error of M, SE, SEM, σ_M)

표준오차란 모집단 평균과 표본의 평균 사이에 얼마나 차이가 있을 것으로 기대되는 지를 측정한 것.

μ M사이의 표준 거리. 

표본평균은 모집단 평균의 추정치로 사용되는 변량이고, 표준오차는 그 추정치가 얼마나 만족할 만한지를 말해주는 것!

 

3. 표준오차(표본평균분포의 표준편차, Standard Error of M, SE, SEM, σ_M)

표준오차

표준오차의 크기는 표본의 크기모집단의 표준편차에 의해 결정된다. 

: 표준편차는 표준오차에 대한 출발점이 되며, 표본 수 n이 1일 때 표준오차와 표준편차는 동일하다. 표본의 크기가 증가할 수록, 표준오차는 표본 수와의 상호 유기적 관계 속에서 감소한다. 반대로 표본의 크기가 감소하면 표준오차는 증가한다. 직관적으로도, 모집단에서 크기가 큰 표본을 뽑을 수록 모집단과 가까워질 것임!

 

⭐대수의 법칙(the Law of Large Numbers): 표본의 크기가 증가함에 따라 표본평균과 모집단 평균 사이의 오차(표준오차)는 감소하여, 더 큰 표본이 모집단을 더 잘 대표한다고 볼 수 있다. 표본 수가 감소함에 따라 오차는 증가하며, 단 한개의 표본일 때, 표본이 곧 표본평균이 되어버리므로 오차는 가장 크다.

 

🧐표준편차(σ)표준오차(σ_M)

표준편차: (변량-평균)의 제곱의 평균에 루트. 변량들이 평균에서 얼마나 떨어져 있는지

표본평균의 분포의 표준편차 → 변량(여기서는 표본평균, 즉 모평균(참값)에 대한 추정값)들이 평균에서 얼마나 떨어져 있는지 = 표준오차: (추정값-참값)의 제곱의 평균에 루트. 표본 평균들의 표준편차. 추정된 모평균의 정밀성을 나타내며, 표준편차와 달리 표준오차는 기술통계량이 아님! 

 

4. 확률과 표본평균의 분포

표본평균분포는 어떤 특정 표본과 관련된 확률을 구하는 데에 이용한다.

표본평균에 대한 확률문제는 표본평균의 분포를 이용하며, z점수를 통해 풀어낼 수 있다. 

 

5. 표준오차 그리고 한걸음 더

🧐 표집오차와 표준오차

표집오차: 표본과 모집단 간 불일치. 필연적으로 발생하게 된다.

표준오차: 표본평균의 분포 상에서 각각의 개별적인 표본에서 표본의 평균과 모집단의 평균 사이의 오차(거리)를 측정하여 평균낸 것. 표본 평균과 모집단의 평균 사이의 표준화된 거리(평균).

 

 

💡추리통계

앞으로 z점수와 확률과 표본평균이 추론 통계에서 활용된다.

예로, 실험군과 대조군 간의 차이를 입증함으로써 실험 처치의 영향 여부를 판단하게 된다.

이 차이를 입증하는데에, 즉 두 집단이 분포 상에서 확연히 다르게 위치한다면 영향이 있는 것!

 

 

https://hsm-edu.tistory.com/794

 

표준오차가 뭔가요? 표준편차랑 다른건가요?

모집단이 있습니다. 모집단의 평균을 μ(뮤), 표준편차를 σ(시그마)라고 합시다. 모집단의 평균이 궁금한데 모집단이 너무 커서 구할 수가 없었습니다. 모집단의 평균을 추정하기 위해 모집단

hsm-edu.tistory.com

https://ballpen.blog/%ED%91%9C%EC%A4%80-%EC%98%A4%EC%B0%A8-%EA%B0%9C%EB%85%90-%EA%B3%84%EC%82%B0-%EB%B0%A9%EB%B2%95/

 

표준 오차 개념과 공식, 그리고 계산 방법 | ilovemyage

표준 오차 SEM(Standard Error of Mean)은 측정값의 정확도 범위를 표현하기 위해 사용됩니다. 표준 오차는 표본 평균에 대한 표준 편차로서 일반적으로 사용되는 보통의 표준 편차와는 다릅니다. 또한

ballpen.blog

 

[참고] 사회과학 통계방법론의 핵심 이론 (커뮤니케이션북스)