개발로그필름

[데이터 TIL] 백분위수란? 본문

데이터분석가/데이터 TIL

[데이터 TIL] 백분위수란?

yuullog 2025. 2. 10. 18:41
728x90
반응형
SMALL

📌 백분위수란?

백분위수(percentile)는 데이터를 100등분한 값을 의미한다

쉽게 말해, 전체 데이터를 낮은 값에서 높은 값까지 정렬한 후, 특정 값이 전체에서 몇 퍼센트 위치에 있는지를 나타내는 것

 


 

🎯 쉽게 이해하는 예시

👉 예를 들어, 100명의 학생이 시험을 본 결과를 가지고 있다

- 만약 내 점수가 백분위수 90이라면?

-> 내 점수보다 낮은 학생이 전체의 90%라는 뜻. 즉, 상위 10%에 속한다는 의미

- 만약 내 점수가 백분위수 50이라면?

-> 내 점수보다 낮은 학생이 전체의 50%라는 뜻이야. 즉, 중간(중앙값, 50%)에 위치한다는 의미

 


 

📊 백분위수 계산 방법

1️⃣ 데이터 정렬하기

먼저 모든 데이터를 낮은 값부터 높은 값까지 정렬

 

2️⃣ 원하는 백분위수 찾기

백분위수 P%에 해당하는 위치는 다음 공식으로 계산한다

위치 = (P / 100) × 데이터 개수

- 예를 들어, 백분위수 25(Q1, 1사분위수)를 찾고 싶다

  데이터 개수가 100개라면:

 (25 / 100) x 100 = 25 번째 값이 Q1(1사분위수)

- 예를 들어, 백분위수 75(Q3, 3사분위수)를 찾고 싶다

(75 / 100) x 100 = 75 번째 값이 Q3(3사분위수)

 


 

🔥 중요한 백분위수

백분위수는 특정한 값을 비교하거나 데이터의 분포를 이해하는 데 유용

특히, 다음 3가지 값이 자주 사용된다

 

1️⃣ 25 백분위수(Q1, 1사분위수)

  • 하위 25%에 해당하는 값
  • 이 값보다 낮은 데이터가 25% 있음

 

2️⃣ 50 백분위수(Q2, 중앙값)

  • 중간값 (전체 데이터의 절반이 이 값보다 작고, 나머지 절반이 큼)

 

3️⃣ 75 백분위수(Q3, 3사분위수)

  • 상위 25%를 제외한 값
  • 이 값보다 낮은 데이터가 75% 있음.

 

➡️ Q1과 Q3를 이용해서 사분위 범위(IQR)도 계산할 수 있다

IQR = Q3 - Q1

➡️ 이 값을 활용하면 이상치(극단적인 값)를 찾을 수도 있다

 


 

반응형

 

🎯 실생활에서의 백분위수

📌 시험 성적 순위

  • 90 백분위수에 있다면? 내 점수보다 낮은 사람이 90%라는 뜻

 

📌 키, 몸무게 등의 신체 데이터

  • 아이 키가 70 백분위수라면? 같은 연령대에서 70%의 아이들보다 키가 큼

 

📌 연봉 순위

  • 연봉이 80 백분위수라면? 전체 직장인 중 상위 20% 안에 속한다는 뜻

 


 

💡 정리

✔ 백분위수는 데이터를 100등분한 값

✔ 특정 값이 전체 데이터에서 몇 퍼센트 위치에 있는지

✔ Q1(25%), Q2(50%, 중앙값), Q3(75%)

✔ 시험 성적, 연봉, 신체 데이터 등 실생활에서 많이 사용

반응형
LIST
Comments