개발로그필름

[데이터분석] '간단히 EDA를 해본다' 라고 한다면 어디까지? 얼마나? 본문

데이터분석가

[데이터분석] '간단히 EDA를 해본다' 라고 한다면 어디까지? 얼마나?

yuullog 2025. 3. 27. 09:10
728x90
반응형
SMALL
반응형

 

 

 

 

 

 

 

1. 데이터 구조 및 기본 정보 확인

  • df.head(), df.info(), df.describe()로 데이터 전체 구조 파악
  • 컬럼별 데이터 타입, 결측치 여부, 기본 통계 확인

 

 

 

 

2. 결측치 및 이상치 확인

  • df.isnull().sum()으로 결측치 확인
  • Boxplot 또는 quantile로 이상치 분포 확인
  • 필요 시 간단한 결측치 처리 (제거 또는 평균/중앙값 대체)

 

 

 

 

3. 기초 통계 및 분포 확인

  • 수치형 변수: 히스토그램, 평균/중앙값/표준편차
  • 범주형 변수: value_counts()로 분포 확인
  • 카테고리 수가 너무 많거나 너무 적은 경우 파악

 

 

 

4. 변수 간 관계 탐색 (간단한 상관관계)

  • corr()로 수치형 변수 간 상관관계 확인
  • scatter plot 또는 pairplot 등으로 시각적으로 파악

 

 

 

 

5. 타겟 변수와의 관계 확인 (분류/회귀 여부에 따라 다름)

  • 타겟 변수 분포 확인
  • 주요 feature들과 타겟 변수 간 관계 대략적으로 시각화

 

 

 

 

6. 간단한 시각화

  • seaborn / matplotlib으로 히스토그램, 바 차트, 박스 플롯 등
  • 데이터의 스토리를 이해하기 위한 최소한의 시각화 작업

 

 

 

 

💡 EDA 목적은?

  • 데이터의 품질 확인
  • 변수의 분포 및 상관성 파악
  • 모델링 전 전처리 방향 설정
  • 혹은 → 가설 수립에 필요한 아이디어 도출

 

반응형
LIST
Comments