개발로그필름

[데이터 TIL] 분산이란? 본문

데이터분석가/데이터 TIL

[데이터 TIL] 분산이란?

yuullog 2025. 2. 11. 14:14
728x90
반응형
SMALL

📌 분산(Variance)이란?

데이터가 평균을 기준으로 얼마나 퍼져 있는지(흩어져 있는지) 측정하는 값

즉, 데이터가 얼마나 넓게 분포하는지를 나타내는 지표

 


 

🎯 왜 분산이 중요할까?

데이터를 분석할 때, 단순히 평균만 본다면 데이터의 특징을 정확히 알기 어렵다

예를 들어 데이터가 고르게 분포했을수도 있고 데이터가 한쪽에 몰려있을 수도 있다

따라서 흩어진 정도를 수치로 표현한 것을 분산 이라고 한다

 


 

🎯 분산을 구하는 방법

1️⃣ 평균 구하기

먼저, 모든 데이터를 더해서 개수로 나눈 평균(Mean)을 구하기

평균(𝜇) = (모든 값의 합) / (데이터 개수)

 

2️⃣ 각 값과 평균의 차이 계산하기

각 데이터 값에서 평균을 뺀 후, 제곱을 해.

왜 제곱을 하는가?

👉 평균보다 크거나 작은 값이 있기 때문에, 그냥 더하면 서로 상쇄되어 0이 될 수도 있다

👉 제곱을 하면 음수(−)가 사라지고, 퍼짐 정도를 제대로 알 수 있다

 

3️⃣ 평균을 내기

제곱한 값들의 평균을 구하면 분산(Variance, 𝜎²)이 나온다

 

🔹 공식(모집단 분산)

 

🔹 공식(표본 분산)

  • 표본에서는 N이 아니라 n-1로 나누는 이유는 편향을 줄이기 위해서이다

 


 

반응형

 

📊 분산이 큰 경우 vs 작은 경우

분산이 크면?

→ 데이터 값들이 평균에서 멀리 퍼져 있다는 뜻 (점수가 들쭉날쭉함)

 

분산이 작으면?

→ 데이터 값들이 평균 근처에 몰려 있다는 뜻 (점수가 비슷비슷함)

 

📌 예제

  • 분산이 작은 경우: 학생들의 키가 거의 비슷한 학교 (ex. 165~170cm)
  • 분산이 큰 경우: 학생들의 키가 다양한 학교 (ex. 150~190cm)

 


 

🎯 분산과 표준편차의 관계

📌 분산의 단점: 제곱값을 사용하기 때문에 실제 데이터와 단위가 다를 수 있다

그래서 분산의 제곱근을 구한 값이 표준편차(Standard Deviation, 𝜎)

 

즉, 표준편차는 분산의 제곱근

표준편차가 클수록 데이터가 평균에서 멀리 퍼져 있다

 


 

정리하면?

분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 값

분산이 크면 데이터가 널리 퍼져 있고, 작으면 평균 근처에 몰려 있음

표준편차는 분산의 제곱근으로, 데이터의 퍼짐 정도를 직관적으로 보여줌

반응형
LIST
Comments