개발로그필름
[데이터 TIL] 왜 평균(Mean) ≈ 중앙값(Median) ≈ 최빈값(Mode)일 때 정규분포라고 할 수 있어? 본문
[데이터 TIL] 왜 평균(Mean) ≈ 중앙값(Median) ≈ 최빈값(Mode)일 때 정규분포라고 할 수 있어?
yuullog 2025. 2. 1. 15:59🎯 1. 정규분포란?
정규분포는 대칭적인 종(bell) 모양의 분포
즉, 데이터가 평균을 중심으로 좌우 대칭을 이루는 형태
ex) 키 데이터
• 대부분의 사람은 평균 키(예: 170cm) 근처에 몰려 있음.
• 키가 아주 작은 사람(예: 150cm)이나 아주 큰 사람(예: 190cm)은 적음.
• 평균을 중심으로 좌우가 대칭적으로 분포됨.
➡ 이런 데이터가 정규분포를 따르는 데이터
📊 2. 평균, 중앙값, 최빈값이 같아지는 이유
(1) 평균(Mean): 모든 값의 합을 데이터 개수로 나눈 값
• 데이터를 모두 더해서 개수로 나누면, 정규분포에서는 가운데 중심 값(정점) 근처에 위치
(2) 중앙값(Median): 데이터를 작은 순서부터 정렬했을 때, 딱 중간에 위치한 값
• 정규분포에서는 좌우가 대칭이므로, 딱 중간값이 평균과 같아지게 됨.
(3) 최빈값(Mode): 가장 자주 나오는 값
• 정규분포에서는 가장 많은 데이터가 중앙에 몰려 있음.
• 즉, 가장 빈도가 높은 값 = 중앙값 = 평균값이 됨.
📌 즉, 정규분포에서는 평균, 중앙값, 최빈값이 거의 같은 값에 위치하게 됨!
(완전히 동일하지 않을 수도 있지만, 거의 근사하게 같아진다)
* 같이 자주 등장하는 왜도
📌 왜도(Skewness)란?
왜도(Skewness)는 데이터의 분포가 얼마나 한쪽으로 치우쳐 있는지를 나타내는 지표
즉, 데이터가 정규분포처럼 대칭적이지 않고 한쪽 방향으로 늘어져 있는 정도를 측정하는 값
🎯 1. 왜도(Skewness)의 종류
📊 (1) 왜도 = 0 (대칭 분포, 정규분포)
• 데이터가 좌우 대칭
• 평균(Mean), 중앙값(Median), 최빈값(Mode)이 거의 같은 위치에 있음.
• 예: 키, 시험 점수 등 자연적인 데이터들이 종종 정규분포를 따름.
📊 (2) 왜도 > 0 (오른쪽으로 치우친 분포, Positive Skew)
• 오른쪽(높은 값 쪽)에 긴 꼬리(Tail)가 존재.
• 평균(Mean) > 중앙값(Median) > 최빈값(Mode).
• 일부 극단적으로 큰 값(이상치)이 평균을 끌어올림.
• 예: 소득 분포(고소득자가 일부 존재)
📊 (3) 왜도 < 0 (왼쪽으로 치우친 분포, Negative Skew)
• 왼쪽(낮은 값 쪽)에 긴 꼬리(Tail)가 존재.
• 평균(Mean) < 중앙값(Median) < 최빈값(Mode).
• 일부 극단적으로 작은 값이 평균을 낮춤.
• 예: 시험 점수가 어려운 시험에서 대부분 높은 경우.
'데이터분석가 > 데이터 TIL' 카테고리의 다른 글
[데이터 TIL] pandas에서 CSV 파일을 읽을 때 한글 인코딩 문제 해결 (0) | 2025.02.06 |
---|---|
[데이터 TIL] to_datetime() vs to_timedelta() 차이점 (1) | 2025.02.06 |
TransactionEncoder를 사용한 변환 (0) | 2025.02.05 |
df.groupby("id")["product"].apply(list).tolist() (0) | 2025.02.04 |
[데이터 TIL] t-검정을 수행할 때 Variable 1 Range, Variable 2 Range에 컬럼명을 포함하지 않는 이유 (0) | 2025.02.02 |