개발로그필름

박스플롯 본문

데이터분석가

박스플롯

yuullog 2024. 12. 25. 15:08
728x90
반응형
SMALL
반응형

박스플롯이란?

데이터를 요약해서 다섯 가지 주요 통계 값으로 시각화한다

1. 최소값 : 데이터 중 가장 작은 값

2. 제1사분위수(Q1) : 데이터의 하위 25% 지점

3. 중앙값 : 데이터의 중간값

4. 제3사분위수(Q3) : 데이터의 상위 25% 지점

5. 최대값 : 데이터 중 가장 큰 값

 

박스플롯의 구성 요소

1. 상자

 - 중앙값, Q1, Q3을 나타낸다

 - 박스 아래쪽 끝 : Q1 (25%)

 - 박스 위쪽 끝 : Q3 (75%)

 - 박스 높이 : IQR(interquartile Range), 즉 Q3-Q1로, 데이터의 중간 50%를 나타낸다

2. 중앙값 선

 - 상자 안에 있는 굵은 선

 - 데이터의 중간값

3. 수염

 - 박스 위아래로 뻗어나간 선

 - 수염은 보통 다음과 같은 범위를 나타낸다

     - 아래 수염 : Q1 - 1.5 x IQR (너무 작은 값의 기준)

     - 위 수염 : Q1 + 1.5 x IQR (너무 큰 값의 기준)

4. 이상치

 - 수염 범위 밖에 있는 데이터 값

 - 보통 작은 점이나 별표로 표시

 

박스플롯 읽는 방법

1. 중앙값 : 데이터 중간값이 어디에 있는지

2. 데이터 분포 : 상자의 위치와 수염의 길이를 통해 데이터가 왼쪽(하위 값)에 치우쳤는지, 오른쪽(상위 값)에 치우쳤는지 확인

3. 이상치 : 수염 밖의 점으로 표시된 데이터가 얼마나 많은지 확인

4. 데이터 변동성 : IQR(상자의 높이)이 넓으면 데이터 변동이 크고, 좁으면 변동이 작음

 

 

박스플롯의 활용

- 데이터 비교 : 여러 그룹 데이터 비교 시 유용

- 이상치 탐지 : 데이터 중 비상적으로 크거나 작은 값 확인 가능

- 분포 확인 : 데이터가 대체로 어느 범위에 집중되어 있는지 확인 가능

 

박스플롯 예시

 

반응형
LIST
Comments