개발로그필름
[데이터 TIL] 백분위수란? 본문
📌 백분위수란?
백분위수(percentile)는 데이터를 100등분한 값을 의미한다
쉽게 말해, 전체 데이터를 낮은 값에서 높은 값까지 정렬한 후, 특정 값이 전체에서 몇 퍼센트 위치에 있는지를 나타내는 것
🎯 쉽게 이해하는 예시
👉 예를 들어, 100명의 학생이 시험을 본 결과를 가지고 있다
- 만약 내 점수가 백분위수 90이라면?
-> 내 점수보다 낮은 학생이 전체의 90%라는 뜻. 즉, 상위 10%에 속한다는 의미
- 만약 내 점수가 백분위수 50이라면?
-> 내 점수보다 낮은 학생이 전체의 50%라는 뜻이야. 즉, 중간(중앙값, 50%)에 위치한다는 의미
📊 백분위수 계산 방법
1️⃣ 데이터 정렬하기
먼저 모든 데이터를 낮은 값부터 높은 값까지 정렬
2️⃣ 원하는 백분위수 찾기
백분위수 P%에 해당하는 위치는 다음 공식으로 계산한다
위치 = (P / 100) × 데이터 개수
- 예를 들어, 백분위수 25(Q1, 1사분위수)를 찾고 싶다
데이터 개수가 100개라면:
(25 / 100) x 100 = 25 번째 값이 Q1(1사분위수)
- 예를 들어, 백분위수 75(Q3, 3사분위수)를 찾고 싶다
(75 / 100) x 100 = 75 번째 값이 Q3(3사분위수)
🔥 중요한 백분위수
백분위수는 특정한 값을 비교하거나 데이터의 분포를 이해하는 데 유용
특히, 다음 3가지 값이 자주 사용된다
1️⃣ 25 백분위수(Q1, 1사분위수)
- 하위 25%에 해당하는 값
- 이 값보다 낮은 데이터가 25% 있음
2️⃣ 50 백분위수(Q2, 중앙값)
- 중간값 (전체 데이터의 절반이 이 값보다 작고, 나머지 절반이 큼)
3️⃣ 75 백분위수(Q3, 3사분위수)
- 상위 25%를 제외한 값
- 이 값보다 낮은 데이터가 75% 있음.
➡️ Q1과 Q3를 이용해서 사분위 범위(IQR)도 계산할 수 있다
IQR = Q3 - Q1
➡️ 이 값을 활용하면 이상치(극단적인 값)를 찾을 수도 있다
🎯 실생활에서의 백분위수
📌 시험 성적 순위
- 90 백분위수에 있다면? 내 점수보다 낮은 사람이 90%라는 뜻
📌 키, 몸무게 등의 신체 데이터
- 아이 키가 70 백분위수라면? 같은 연령대에서 70%의 아이들보다 키가 큼
📌 연봉 순위
- 연봉이 80 백분위수라면? 전체 직장인 중 상위 20% 안에 속한다는 뜻
💡 정리
✔ 백분위수는 데이터를 100등분한 값
✔ 특정 값이 전체 데이터에서 몇 퍼센트 위치에 있는지
✔ Q1(25%), Q2(50%, 중앙값), Q3(75%)
✔ 시험 성적, 연봉, 신체 데이터 등 실생활에서 많이 사용
'데이터분석가 > 데이터 TIL' 카테고리의 다른 글
[데이터 TIL] plt.xscale('log') & plt.yscale('log')란? (0) | 2025.02.11 |
---|---|
[데이터 TIL] ValueError: invalid literal for int() with base 10: '54,071,677' (0) | 2025.02.11 |
[데이터 TIL] ci=None 신뢰구간 비활성화 (0) | 2025.02.10 |
[데이터 TIL] 그래프 한글 깨질 때 해결 방법 & 그래프 선명하게 하는 법 (0) | 2025.02.10 |
[데이터 TIL] import warnings warnings.simplefilter('ignore') (0) | 2025.02.10 |