개발로그필름

[데이터 TIL] 왜 평균(Mean) ≈ 중앙값(Median) ≈ 최빈값(Mode)일 때 정규분포라고 할 수 있어? 본문

데이터분석가/데이터 TIL

[데이터 TIL] 왜 평균(Mean) ≈ 중앙값(Median) ≈ 최빈값(Mode)일 때 정규분포라고 할 수 있어?

yuullog 2025. 2. 1. 15:59
728x90
반응형
SMALL
반응형

🎯 1. 정규분포란?

정규분포는 대칭적인 종(bell) 모양의 분포

즉, 데이터가 평균을 중심으로 좌우 대칭을 이루는 형태

ex) 키 데이터

• 대부분의 사람은 평균 키(예: 170cm) 근처에 몰려 있음.

• 키가 아주 작은 사람(예: 150cm)이나 아주 큰 사람(예: 190cm)은 적음.

• 평균을 중심으로 좌우가 대칭적으로 분포됨.

이런 데이터가 정규분포를 따르는 데이터

 

 

📊 2. 평균, 중앙값, 최빈값이 같아지는 이유

(1) 평균(Mean): 모든 값의 합을 데이터 개수로 나눈 값

• 데이터를 모두 더해서 개수로 나누면, 정규분포에서는 가운데 중심 값(정점) 근처에 위치

 

(2) 중앙값(Median): 데이터를 작은 순서부터 정렬했을 때, 딱 중간에 위치한 값

• 정규분포에서는 좌우가 대칭이므로, 딱 중간값이 평균과 같아지게 됨.

 

(3) 최빈값(Mode): 가장 자주 나오는 값

• 정규분포에서는 가장 많은 데이터가 중앙에 몰려 있음.

• 즉, 가장 빈도가 높은 값 = 중앙값 = 평균값이 됨.

 

📌 즉, 정규분포에서는 평균, 중앙값, 최빈값이 거의 같은 값에 위치하게 됨!

(완전히 동일하지 않을 수도 있지만, 거의 근사하게 같아진다)

 

 

* 같이 자주 등장하는 왜도

📌 왜도(Skewness)란?

왜도(Skewness)는 데이터의 분포가 얼마나 한쪽으로 치우쳐 있는지를 나타내는 지표

즉, 데이터가 정규분포처럼 대칭적이지 않고 한쪽 방향으로 늘어져 있는 정도를 측정하는 값

 

🎯 1. 왜도(Skewness)의 종류

📊 (1) 왜도 = 0 (대칭 분포, 정규분포)

• 데이터가 좌우 대칭

• 평균(Mean), 중앙값(Median), 최빈값(Mode)이 거의 같은 위치에 있음.

• 예: 키, 시험 점수 등 자연적인 데이터들이 종종 정규분포를 따름.

 

📊 (2) 왜도 > 0 (오른쪽으로 치우친 분포, Positive Skew)

오른쪽(높은 값 쪽)에 긴 꼬리(Tail)가 존재.

• 평균(Mean) > 중앙값(Median) > 최빈값(Mode).

• 일부 극단적으로 큰 값(이상치)이 평균을 끌어올림.

• 예: 소득 분포(고소득자가 일부 존재)

 

📊 (3) 왜도 < 0 (왼쪽으로 치우친 분포, Negative Skew)

왼쪽(낮은 값 쪽)에 긴 꼬리(Tail)가 존재.

• 평균(Mean) < 중앙값(Median) < 최빈값(Mode).

• 일부 극단적으로 작은 값이 평균을 낮춤.

• 예: 시험 점수가 어려운 시험에서 대부분 높은 경우.

반응형
LIST
Comments