개발로그필름
[데이터분석] '간단히 EDA를 해본다' 라고 한다면 어디까지? 얼마나? 본문
728x90
반응형
SMALL
반응형
1. 데이터 구조 및 기본 정보 확인
- df.head(), df.info(), df.describe()로 데이터 전체 구조 파악
- 컬럼별 데이터 타입, 결측치 여부, 기본 통계 확인
2. 결측치 및 이상치 확인
- df.isnull().sum()으로 결측치 확인
- Boxplot 또는 quantile로 이상치 분포 확인
- 필요 시 간단한 결측치 처리 (제거 또는 평균/중앙값 대체)
3. 기초 통계 및 분포 확인
- 수치형 변수: 히스토그램, 평균/중앙값/표준편차
- 범주형 변수: value_counts()로 분포 확인
- 카테고리 수가 너무 많거나 너무 적은 경우 파악
4. 변수 간 관계 탐색 (간단한 상관관계)
- corr()로 수치형 변수 간 상관관계 확인
- scatter plot 또는 pairplot 등으로 시각적으로 파악
5. 타겟 변수와의 관계 확인 (분류/회귀 여부에 따라 다름)
- 타겟 변수 분포 확인
- 주요 feature들과 타겟 변수 간 관계 대략적으로 시각화
6. 간단한 시각화
- seaborn / matplotlib으로 히스토그램, 바 차트, 박스 플롯 등
- 데이터의 스토리를 이해하기 위한 최소한의 시각화 작업
💡 EDA 목적은?
- 데이터의 품질 확인
- 변수의 분포 및 상관성 파악
- 모델링 전 전처리 방향 설정
- 혹은 → 가설 수립에 필요한 아이디어 도출
반응형
LIST
'데이터분석가' 카테고리의 다른 글
[데이터분석가] 코랩에서 여러 파일들을 업로드 해야할 때 한번에 파일 올리기 (0) | 2025.03.31 |
---|---|
[데이터 분석] 구글 코랩에서 구글 드라이브 파일 연결해서 사용하는 기본 코드 (0) | 2025.03.26 |
네 번째 질문, 직업군별 수면시간과 수면의 질 (0) | 2024.12.25 |
박스플롯 (0) | 2024.12.25 |
세 번째 질문, 스트레스 수준이 수면 시간이나 수면의 질에 미치는 영향은? (0) | 2024.12.24 |
Comments