개발로그필름
박스플롯 본문
박스플롯이란?
데이터를 요약해서 다섯 가지 주요 통계 값으로 시각화한다
1. 최소값 : 데이터 중 가장 작은 값
2. 제1사분위수(Q1) : 데이터의 하위 25% 지점
3. 중앙값 : 데이터의 중간값
4. 제3사분위수(Q3) : 데이터의 상위 25% 지점
5. 최대값 : 데이터 중 가장 큰 값
박스플롯의 구성 요소
1. 상자
- 중앙값, Q1, Q3을 나타낸다
- 박스 아래쪽 끝 : Q1 (25%)
- 박스 위쪽 끝 : Q3 (75%)
- 박스 높이 : IQR(interquartile Range), 즉 Q3-Q1로, 데이터의 중간 50%를 나타낸다
2. 중앙값 선
- 상자 안에 있는 굵은 선
- 데이터의 중간값
3. 수염
- 박스 위아래로 뻗어나간 선
- 수염은 보통 다음과 같은 범위를 나타낸다
- 아래 수염 : Q1 - 1.5 x IQR (너무 작은 값의 기준)
- 위 수염 : Q1 + 1.5 x IQR (너무 큰 값의 기준)
4. 이상치
- 수염 범위 밖에 있는 데이터 값
- 보통 작은 점이나 별표로 표시
박스플롯 읽는 방법
1. 중앙값 : 데이터 중간값이 어디에 있는지
2. 데이터 분포 : 상자의 위치와 수염의 길이를 통해 데이터가 왼쪽(하위 값)에 치우쳤는지, 오른쪽(상위 값)에 치우쳤는지 확인
3. 이상치 : 수염 밖의 점으로 표시된 데이터가 얼마나 많은지 확인
4. 데이터 변동성 : IQR(상자의 높이)이 넓으면 데이터 변동이 크고, 좁으면 변동이 작음
박스플롯의 활용
- 데이터 비교 : 여러 그룹 데이터 비교 시 유용
- 이상치 탐지 : 데이터 중 비상적으로 크거나 작은 값 확인 가능
- 분포 확인 : 데이터가 대체로 어느 범위에 집중되어 있는지 확인 가능
'데이터분석가' 카테고리의 다른 글
[데이터 분석] 구글 코랩에서 구글 드라이브 파일 연결해서 사용하는 기본 코드 (0) | 2025.03.26 |
---|---|
네 번째 질문, 직업군별 수면시간과 수면의 질 (0) | 2024.12.25 |
세 번째 질문, 스트레스 수준이 수면 시간이나 수면의 질에 미치는 영향은? (0) | 2024.12.24 |
히트맵 (0) | 2024.12.23 |
산점도 (0) | 2024.12.23 |