개발로그필름
[ML] 결정나무의 주요 특징 본문
728x90
반응형
SMALL
반응형
1. 모델의 의사결정 과정을 시각적으로 표현할 수 있음
- 결정나무는 “질문하고, 답하고, 또 질문하고…” 이런 과정을 마치 게임처럼 트리 구조로 보여준다
- ex) “기온이 20도 이상인가요?” → “네”면 오른쪽, “아니오”면 왼쪽
- 이런 분기 구조를 그림(트리 구조) 으로 쉽게 그릴 수 있다
→ “모델의 해석 가능성이 높다”, “화이트박스 모델”이라고도 표현됨
2. 수치형 & 범주형 데이터 전처리 거의 필요 없음
- 다른 모델들은 숫자/문자 데이터를 바꾸거나 정규화해야 하는데, 결정나무는 그냥 있는 그대로 사용해도 잘 작동
- ex) ‘나이’는 그냥 숫자 그대로, ‘성별’은 남자=0, 여자=1처럼 바꿔도 바로 조건 분기로 사용할 수 있다
→ “범주형 변수도 별도 인코딩 없이 처리 가능”
→ “복잡한 전처리 없이도 모델 학습 가능”
3. 스케일 불변성
- 값이 10이든, 1000이든 “그냥 비교해서 누가 크냐 작냐만 보면 된다”
- 즉, 단위 차이, 분포 차이는 별로 중요하지 않다
- ex) 키(cm)와 몸무게(kg)의 스케일이 달라도 괜찮다
- 다른 모델(예: 선형회귀, SVM)은 스케일 차이 때문에 정규화 필요
→ “피처 스케일에 영향 받지 않음”, “스케일 조정 불필요”
4. 비선형 관계 포착 가능
- 결정나무는 데이터를 곡선처럼 휘어진 복잡한 모양으로도 나눌 수 있다
- ex) 선형회귀는 직선으로만 예측하지만, 결정나무는 데이터를 잘게 쪼개서 복잡한 형태도 따라갈 수 있다
→ “선형 가정 불필요”, “비선형 데이터에도 적합”
5. 카테고리(범주형) 처리 용이
- ‘도시’나 ‘색상’ 같은 문자 정보도 숫자만 붙여주면 바로 사용 가능
- 더미 변수 만들 필요 없이 그냥 “X <= 2” 같은 조건만 있으면 됨
- ex) ‘도시’가 서울=0, 부산=1, 대전=2 라면
- “X <= 1이면 서울/부산” 그룹 이런 식으로 나눌 수 있다
→ “범주형 변수 직접 처리 가능, 인코딩 필요 없음”
6. 이상치(outlier)에 강함
- 극단적인 값이 있어도 트리 전체에 큰 영향을 주지 않는다
- “딱 그 값 하나”만 조건에서 걸러내면 되니까
- ex) 연봉이 대부분 3000~5000인데, 한 명만 1억이라 해도→ 전체 데이터에는 큰 영향 없음
- → “연봉 > 9000” 조건 하나로 나눠버리면 됨
→ “이상치에 민감하지 않음”, “Robust함”
정리 요약
특징 구분 | 내용 요약 |
해석 가능성 | 트리 구조로 의사결정 시각화 가능 → 해석 쉬움 |
전처리 필요 없음 | 수치형/범주형 데이터를 거의 그대로 사용 가능 |
스케일 불변성 | 피처 단위 차이나 분포 영향 거의 없음 |
비선형 대응 | 선형 가정 없이 비선형 관계도 잘 학습 |
범주형 처리 | 더미 인코딩 없이 범주형도 분할 가능 |
이상치에 강함 | 극단값이 있어도 조건문으로 잘 분리됨 |
반응형
LIST
'ML' 카테고리의 다른 글
[ML] 앙상블이란? (0) | 2025.05.25 |
---|---|
[ML] 결정트리회귀란? (0) | 2025.05.24 |
[ML] 과소적합 vs 과대적합 (0) | 2025.05.23 |
[ML] 원 핫 인코딩 (One-Hot Encoding) (0) | 2025.05.22 |
[ML] 결정나무란? (0) | 2025.05.21 |
Comments