공부/통계·ML 6

Data granularity와 Aggregation

granularity: 데이터가 세분화 된 정도! 결합된 정도! 얼마나 자세히 분할되어있는지. 곡물 grain의 입자도가 어원인 듯하다. Fine-grained system = high granularity = broken down into larger number of smaller parts. Coarse-grained system = low granularity = smaller number of larger parts. Aggregation and granularity are complementary concepts. Aggregation is a mathematical operation that takes multiple values and returns a single value: operat..

공부/통계·ML 2022.08.10

[통계 스터디] 16. 카이스퀘어: 적합도와 독립성검증

모수적(parametric) 방법: 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법. 모수치에 관심. 표본 내 개체에 대한 수치화된 점수가 필요하므로, 등간/비율척도로 측정된 데이터 필요. 비모수적 방법(non-parametric method): 모집단 분포에 대한 가정 없이 접근하는 통계적 방법. 모수치에 대한 가설 X. 모집단 분포에 대한 가정 충족 필요 X. 범주/빈도만 이용하며 수치화된 통계량 산출 필요 없으므로, 명명/서열척도로 측정된 데이터 가능. 모수적 검증만큼 민감한 통계적 차이 탐지 어려우므로 가능한 모수적 방법 선택. 카이스퀘어 검정 : 전체 빈도 분포의 형태에 대한 가설을 검증하는 비모수적 기법 중 하나. 모집단 내의 비율, 관계에 ..

공부/통계·ML 2022.06.03

[통계 스터디] 13. 일원 변량분석(ANOVA) - 변량분석, F분포, 사후검사

변량분석(ANOVA): 둘 혹은 그 이상의 실험집단(혹은 모집단) 사이의 평균 차이를 측정하는 데 사용되는 가설검증 절차. 평균차이를 통해 n개의모집단 간에 차이가 있다고 결론지을 수 있을 만한 충분한 근거가 표본들 간에 있는지를 확인하는 것이 목표. - H0: 모집단(혹은 실험집단) 사이에는 아무런 차이가 없다. 표본 사이에 차이가 관찰되었다면 이것은 단지 우연 때문이다. (표집오차) ($${\mu_1}= {\mu_2}= {\mu_3}$$)- H1: 모집단(혹은 실험집단)은 정말 다은 평균치를 가지고 있으며, 이 모집단의 평균 차이는 각 표본들이 다른 평균을 가지고 있다는 근거가 됨. (적어도 하나의 모집단 평균이 다른 모집단 평균과 차이가 있다. 즉, 실질적 처치효과가 있다.변량분석의 경우, 비교될 ..

공부/통계·ML 2022.06.01