공부 13

Kafka 개념

카프카(Kafka)란 : 실시간으로 스트리밍 데이터를 게시, 구독, 저장 및 처리할 수 있는 '분산형 데이터 스트리밍 플랫폼' (참조: 카프카 무엇이고 왜 필요할까)크게 메세지를 발행하는 Producer, 메세지를 소비하는 Consumer, 그리고 통합/중앙화된 전송 영역을 제공하는 Kafka Broker 로 구성됨. 중앙 집중형 구조로 멀티 프로듀서, 멀티 컨슈머를 구성해 하나의 토픽에 여러 프로듀서 또는 컨슈머들이 접근 가능함. 장점: 대용량 메세지의 빠른 처리, 확장(Scale-out) 용이HOW: 메세지를 생성하는 Producer 와 Consumer 을 분리하고, 통합/중앙화된 전송 영역을 도입해 기존의 end-to-end 통신 방식 아키텍쳐의 시스템 복잡도, 데이터 파이프라인 관리의 문제점을 해..

공부/MLOps 2024.08.21

Data granularity와 Aggregation

granularity: 데이터가 세분화 된 정도! 결합된 정도! 얼마나 자세히 분할되어있는지. 곡물 grain의 입자도가 어원인 듯하다. Fine-grained system = high granularity = broken down into larger number of smaller parts. Coarse-grained system = low granularity = smaller number of larger parts. Aggregation and granularity are complementary concepts. Aggregation is a mathematical operation that takes multiple values and returns a single value: operat..

공부/통계·ML 2022.08.10

[통계 스터디] 16. 카이스퀘어: 적합도와 독립성검증

모수적(parametric) 방법: 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법. 모수치에 관심. 표본 내 개체에 대한 수치화된 점수가 필요하므로, 등간/비율척도로 측정된 데이터 필요. 비모수적 방법(non-parametric method): 모집단 분포에 대한 가정 없이 접근하는 통계적 방법. 모수치에 대한 가설 X. 모집단 분포에 대한 가정 충족 필요 X. 범주/빈도만 이용하며 수치화된 통계량 산출 필요 없으므로, 명명/서열척도로 측정된 데이터 가능. 모수적 검증만큼 민감한 통계적 차이 탐지 어려우므로 가능한 모수적 방법 선택. 카이스퀘어 검정 : 전체 빈도 분포의 형태에 대한 가설을 검증하는 비모수적 기법 중 하나. 모집단 내의 비율, 관계에 ..

공부/통계·ML 2022.06.03