개발로그필름

[ML] 결정나무의 주요 특징 본문

ML

[ML] 결정나무의 주요 특징

yuullog 2025. 5. 24. 14:33
728x90
반응형
SMALL

 

반응형

 

 

 

 

 

 

1. 모델의 의사결정 과정을 시각적으로 표현할 수 있음

  • 결정나무는 “질문하고, 답하고, 또 질문하고…” 이런 과정을 마치 게임처럼 트리 구조로 보여준다
  • ex) “기온이 20도 이상인가요?” → “네”면 오른쪽, “아니오”면 왼쪽
  • 이런 분기 구조를 그림(트리 구조) 으로 쉽게 그릴 수 있다

→ “모델의 해석 가능성이 높다”, “화이트박스 모델”이라고도 표현됨

 


 

2.  수치형 & 범주형 데이터 전처리 거의 필요 없음

  • 다른 모델들은 숫자/문자 데이터를 바꾸거나 정규화해야 하는데, 결정나무는 그냥 있는 그대로 사용해도 잘 작동
  • ex) ‘나이’는 그냥 숫자 그대로, ‘성별’은 남자=0, 여자=1처럼 바꿔도 바로 조건 분기로 사용할 수 있다

→ “범주형 변수도 별도 인코딩 없이 처리 가능”

→ “복잡한 전처리 없이도 모델 학습 가능”

 


 

3.  스케일 불변성

  • 값이 10이든, 1000이든 “그냥 비교해서 누가 크냐 작냐만 보면 된다”
  • 즉, 단위 차이, 분포 차이는 별로 중요하지 않다
  • ex) 키(cm)와 몸무게(kg)의 스케일이 달라도 괜찮다
  • 다른 모델(예: 선형회귀, SVM)은 스케일 차이 때문에 정규화 필요

→ “피처 스케일에 영향 받지 않음”, “스케일 조정 불필요”

 


 

4. 비선형 관계 포착 가능

  • 결정나무는 데이터를 곡선처럼 휘어진 복잡한 모양으로도 나눌 수 있다
  • ex) 선형회귀는 직선으로만 예측하지만, 결정나무는 데이터를 잘게 쪼개서 복잡한 형태도 따라갈 수 있다

→ “선형 가정 불필요”, “비선형 데이터에도 적합”

 


 

5. 카테고리(범주형) 처리 용이

  • ‘도시’나 ‘색상’ 같은 문자 정보도 숫자만 붙여주면 바로 사용 가능
  • 더미 변수 만들 필요 없이 그냥 “X <= 2” 같은 조건만 있으면 됨
  • ex) ‘도시’가 서울=0, 부산=1, 대전=2 라면
  • “X <= 1이면 서울/부산” 그룹 이런 식으로 나눌 수 있다

→ “범주형 변수 직접 처리 가능, 인코딩 필요 없음”

 


 

6. 이상치(outlier)에 강함

  • 극단적인 값이 있어도 트리 전체에 큰 영향을 주지 않는다
  • “딱 그 값 하나”만 조건에서 걸러내면 되니까
  • ex) 연봉이 대부분 3000~5000인데, 한 명만 1억이라 해도→ 전체 데이터에는 큰 영향 없음
  • → “연봉 > 9000” 조건 하나로 나눠버리면 됨

→ “이상치에 민감하지 않음”, “Robust함”

 


 

정리 요약 

 

특징 구분 내용 요약
해석 가능성 트리 구조로 의사결정 시각화 가능 → 해석 쉬움
전처리 필요 없음 수치형/범주형 데이터를 거의 그대로 사용 가능
스케일 불변성 피처 단위 차이나 분포 영향 거의 없음
비선형 대응 선형 가정 없이 비선형 관계도 잘 학습
범주형 처리 더미 인코딩 없이 범주형도 분할 가능
이상치에 강함 극단값이 있어도 조건문으로 잘 분리됨

 

 

 

 

반응형
LIST

'ML' 카테고리의 다른 글

[ML] 앙상블이란?  (0) 2025.05.25
[ML] 결정트리회귀란?  (0) 2025.05.24
[ML] 과소적합 vs 과대적합  (0) 2025.05.23
[ML] 원 핫 인코딩 (One-Hot Encoding)  (0) 2025.05.22
[ML] 결정나무란?  (0) 2025.05.21
Comments